Sapphire Rapids con 64 GB HBM2e, Ponte Vecchio con 408 MB de caché L2

Esta semana tenemos el evento anual de supercomputación donde todos los grandes jugadores de la informática de alto rendimiento ponen sus cartas sobre la mesa cuando se trata de hardware, instalaciones y triunfos de diseño. Como parte del evento, Intel realizará una presentación sobre sus ofertas de hardware que revelará detalles adicionales sobre el hardware de próxima generación que se integrará en la supercomputadora Aurora Exascale.

Aurora es un contrato que Intel ha tenido durante un tiempo: el alcance era originalmente un sistema basado en Xeon Phi de 10 nm, cuya idea se suspendió cuando se descartó Xeon Phi, y ha estado cambiando constantemente debido a las ofertas de hardware de Intel. Hace unos años se decidió que el sistema ahora usaría los procesadores Sapphire Rapids de Intel (los que tienen memoria de gran ancho de banda) en combinación con el nuevo Ponte Vecchio X.mi-Acelerador de GPU basado en HPC y elevado de varios cientos de PetaFLOP a ExaFLOP por Computing. Más recientemente, el CEO de Intel, Pat Gelsinger, anunció que el acelerador Ponte Vecchio duplicará el rendimiento, superando las expectativas en las revelaciones originales, y que cuando se construya, Aurora será una supercomputadora 2+ EF. Intel espera enviar el primer lote de hardware al Laboratorio Nacional Argonne antes de fin de año, pero eso vendrá con una cancelación de $ 300 millones en los datos financieros del cuarto trimestre de Intel. Intel espera enviar el resto de la máquina para 2022 y aumentar la producción del hardware para uso general en el primer trimestre para una implementación más amplia en la primera mitad del año.

Hoy tenemos más detalles sobre el hardware.

En el lado del procesador, sabemos que cada unidad Aurora contendrá dos de las últimas CPU Sapphire Rapids (SPR) de Intel con cuatro mosaicos de cómputo, DDR5, PCIe 5.0, CXL 1.1 (no CXL.mem) y utilizará EMIB generosamente entre los mosaicos. Aurora también usará SPR con memoria de alto ancho de banda incorporada (SPR + HBM), y la revelación clave es que SPR + HBM ofrecerá hasta 64 GB de HBM2e con 8 pilas hi.

Según las ilustraciones, Intel pretende utilizar cuatro pilas de HBM2e de 16 GB para un total de 64 GB. Intel tiene una relación con Micron, y las dimensiones físicas del Micron HBM2e coincidirán con lo que se muestra en los materiales de Intel (en comparación con, por ejemplo, Samsung o SKHynix). Micron ofrece actualmente dos versiones de HBM2E de 16 GB con hardware ECC: una con 2,8 Gbit / s por pin (358 GB / s por pila) y otra con 3,2 Gbit / s por pin (410 GB / s por pila). En general, consideramos un ancho de banda máximo entre 1.432 TB / sy 1.640 TB / s, según la versión que esté usando Intel. Las versiones con HBM utilizan cuatro mosaicos adicionales para conectar cada pila HBM a uno de los chiplets SPR.

En base a este diagrama de Intel, está claro que habrá versiones incompatibles, aunque Intel afirma que SPR + HBM compartirá un socket con el SPR tradicional. Este puede ser un caso en el que las versiones Aurora de SPR + HBM están diseñadas específicamente para esta máquina..

En el lado de Ponte Vecchio (PVC) de la ecuación, Intel ya ha anunciado que un solo servidor en Aurora tendrá seis aceleradores de PVC por dos procesadores SPR. Cada uno de los aceleradores está vinculado en una topología integral utilizando el nuevo protocolo Xe-Link integrado en cada PVC: Xe-Link admite 8 en modo completamente conectado, por lo que Aurora solo necesita seis de ellos para ahorrar más energía para el hardware. Se desconoce cómo están conectados a los procesadores SPR: Intel ha anunciado que habrá una arquitectura de memoria uniforme entre la CPU y la GPU.

La idea agregada por Intel hoy es que cualquier implementación Ponte-Vecchio de doble pila (el diagrama que Intel ha mostrado repetidamente, dos pilas están una al lado de la otra) admite un total de 64 MB de caché L1 y 408 MB de caché L2 de HBM2e.

408 MB de caché L2 en dos pilas significa 204 MB por pila. Si comparamos esto con otro hardware:

  • NVIDIA A100 tiene 40 MB de caché L2
  • Navi 21 de AMD tiene una caché infinita de 128 MB (una L3 efectiva)
  • El CNDA2 MI250X de AMD en Frontier tiene 8 MB de L2 por "pila" o un total de 16 MB

Independientemente de cómo lo divida, Intel está apostando fuertemente a tener la jerarquía de caché correcta para PVC. Los diagramas de PVC también muestran 4 chips HBM2e por mitad, lo que sugiere que cualquier diseño de doble pila de PVC podría tener 128 GB de HBM2e. Es probable que ninguno de ellos sea "sustituible" por motivos de ingresos, ya que un diseño basado en chiplet permite a Intel fabricar PVC con chips buenos conocidos desde el principio.

Además, también recibimos un número oficial de cuántas GPU Ponte Vecchio y procesadores Sapphire Rapids (+ HBM) necesitamos para Aurora. En noviembre de 2019, cuando Aurora solo figuraba como una supercomputadora 1EF, hice algunos números aproximados basados ​​en la declaración de Intel de que Aurora tiene 200 racks e hice conjeturas sobre el diseño: obtuve 5000 CPU y 15000 GPU, cada PVC requiere aproximadamente 66.6 TF de poder. En ese momento, Intel ya mostraba un rendimiento de 40 TF por tarjeta en el silicio inicial. Los números oficiales de Intel para la máquina Aurora 2EF son:

Más de 18000 CPU y 54000+ GPU son mucho hardware. Pero dividir 2 exaflops por 54.000 aceleradores de PVC da solo 37 teraflops por PVC como límite superior, y ese número supone que las CPU no están funcionando.

Para agregar a la mezcla, el CEO de Intel, Pat Gelsinger, dijo hace solo unas semanas que el PVC duplica el rendimiento esperado originalmente, lo que permite que Aurora sea una máquina 2EF. ¿Significa esto que el objetivo de rendimiento original para PVC era ~ 20 TF de FP64? Hablando de nada, el reciente anuncio MI250X de AMD la semana pasada mostró un chip GPU dual con un rendimiento vectorial de 47,9 TF FP64 que se sitúa en 95,7 TF en el rendimiento de la matriz FP64. La conclusión aquí podría ser que el MI250X de AMD en realidad ofrece una potencia bruta más alta que el PVC, sin embargo, AMD consume 560W para esta tarjeta, mientras que las métricas de rendimiento de Intel no se han revelado. Aquí también podríamos hacer un pequeño cálculo de la servilleta.

  • Frontier usa tarjetas MI250X de 560 W y está diseñado para 1.5 ExaFlops de FP64 Vector a 30 MW de potencia. Esto significa que Frontier necesita 31300 tarjetas (1,5 EF / 49,7 TF) para cumplir con los objetivos de rendimiento, y para cada tarjeta MI250X de 560 W, Frontier ha asignado 958 vatios de potencia (tarjetas de 30 MW / 31300). Esto es un 71% de sobrecarga para cada tarjeta (es decir, refrigeración, sistemas de almacenamiento, otra potencia de procesamiento / gestión, etc.).
  • Aurora usa PVC con una potencia desconocida y está diseñada para 2 ExaFlops de FP64 Vector a 60 MW de potencia. Sabemos que PVC tiene 54.000 tarjetas para cumplir con sus objetivos de rendimiento, lo que significa que el sistema asignó 1053 W (es decir, 60 MW / 54.000) por tarjeta para tener en cuenta el acelerador de PVC y otros gastos generales necesarios. Si asumimos (una gran suposición, lo sé) que Frontier y Aurora tienen gastos generales similares, entonces vemos 615W por PVC.
  • Esto terminaría con 615 W para 37 TF para PVC, en comparación con el MI250X a 560 W para 47,9 TF.
  • Esta discusión en bruto no entra en las capacidades específicas que tiene cada tarjeta para su caso de uso.
Comparación de aceleradores de GPU de cómputo
Números confirmados
AnandTechIntelAMDNVIDIA
productoPonte VecchioMI250XA100 de 80 GB
ArquitecturaXe-HPCCDNA2amperio
Transistores100 B58,2 B54,2 B
Azulejos (incluido HBM)4710Reemplazo 6 + 1
Unidades aritméticas1282 x 110108
Núcleos de matriz1282 x 440432
Tensor INT8?383 TOP624 TOP
Matriz FP16?383 TOP312 TOP
Vector de FP64?47,9 TFLOPS9.5 TFLOPS
Matriz FP64?95,7 TFLOPS19,5 TFLOPS
L2 / L32 x 204 MB2 x 8 MB40 MB
Capacidad de VRAM128 GB (?)128 GB80 GB
Tipo de VRAM 8 x HBM2e8 x HBM2e5 x HBM2e
Ancho de VRAM?8192 bits5120 bits
Ancho de banda de VRAM?3,2 TB / s2,0 TB / s
BW total de chip a chipOctavo8 x 100 GB / s12 x 50 GB / s
Coherencia de la CPUsí señorCon IFCon NVLink 3
FabricaciónIntel 7
TSMC N7
TSMC N5
TSMC N6TSMC N7
Factores de formaOAMOAM (560 W)SXM4 (400 W *)
PCIe (300 W)
Fecha de lanzamiento202211/202111/2020
* Algunas implementaciones personalizadas alcanzan hasta 600W

Intel también anunció que se asociará con SiPearl para aprovechar el hardware de PVC en su esfuerzo europeo de HPC. SiPearl está construyendo actualmente una CPU basada en ARM llamada Rhea, que se basa en TSMC N7.

En el futuro, Intel también ha lanzado una mini hoja de ruta. Nada sorprendente: Intel tiene planes para diseños más allá de Ponte Vecchio, y que los futuros procesadores Xeon Scalable también tendrán opciones habilitadas con HBM.

Lectura relacionada

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir