Empuje PCIe a 300 vatios

Como parte del anuncio de hoy para ISC 2021, NVIDIA anunció esta mañana que están actualizando la versión de 80GB de su acelerador A100 al factor de forma PCIe. Anunciada por primera vez el otoño pasado en el factor de forma SXM personalizado de NVIDIA, la versión de 80 GB del A100 se introdujo no solo para expandir la capacidad total de almacenamiento de un acelerador A100, y duplicarla de 40 GB a 80 GB, sino que también ofreció un aumento de especificación poco común para los usuarios medios. -generación, y las tasas de reloj de memoria se incrementan en un 33% más. Ahora, después de poco más de 6 meses, NVIDIA lanza una versión PCIe del acelerador para los clientes que necesitan tarjetas complementarias independientes.

La nueva versión de 80 GB de PCIe A100 complementa la versión existente de 40 GB, y NVIDIA continuará vendiendo ambas versiones de la tarjeta. En general, este es un movimiento bastante sencillo de la SMX A100 de 80GB a PCIe, con NVIDIA reduciendo el TDP de la tarjeta y la cantidad de NVLinks expuestos según las capacidades del factor de forma. El lanzamiento de la tarjeta PCIe de 80 GB tiene como objetivo proporcionar a los clientes de factor de forma PCIe tradicionales de NVIDIA una segunda opción de acelerador más potente, especialmente para los usuarios que requieren más de 40 GB de memoria GPU.

Comparación de las especificaciones del acelerador NVIDIA
80 GB A100
(PCIe)
80 GB A100
(SXM4)
40 GB A100
(PCIe)
40 GB A100
(SXM4)
Núcleos FP32 CUDA6912691269126912
Impulsar el reloj1,41 GHz1,41 GHz1,41 GHz1,41 GHz
Reloj de la memoria3,0 Gbit / s HBM23,2 Gbit / s HBM22,43 Gbit / s HBM22,43 Gbit / s HBM2
Bus de ancho de bus de memoria5120 bits5120 bits5120 bits5120 bits
Ancho de banda de memoria1,9 TB / seg
(1935 GB / seg.)
2,0 TB / seg
(2039 GB / seg.)
1,6 TB / seg
(1555 GB / seg.)
1,6 TB / s
(1555 GB / seg.)
VRAM80 GB80 GB40 GB40 GB
Con simple precisión19,5 TFLOPS19,5 TFLOPS19,5 TFLOPS19,5 TFLOPS
El doble de precisión9,7 TFLOPS
(1/2 tasa FP32)
9,7 TFLOPS
(1/2 tasa FP32)
9,7 TFLOPS
(1/2 tasa FP32)
9,7 TFLOPS
(1/2 tasa FP32)
Tensor INT8624 TOP624 TOP624 TOP624 TOP
Tensor FP16312 TFLOPS312 TFLOPS312 TFLOPS312 TFLOPS
Tensor TF32156 TFLOPS156 TFLOPS156 TFLOPS156 TFLOPS
Rendimiento relativo (versión SXM)90%?100%90%100%
ConectarNVLink 3
12 conexiones (600 GB / seg.)
NVLink 3
12 conexiones (600 GB / seg.)
NVLink 3
12 conexiones (600 GB / seg.)
NVLink 3
12 conexiones (600 GB / seg.)
GPUGA100
(826 mm2)
GA100
(826 mm2)
GA100
(826 mm2)
GA100
(826 mm2)
Numero de transistores54,2B54,2B54,2B54,2B
TDP300W400W250W400W
método de producciónTSMC 7NTSMC 7NTSMC 7NTSMC 7N
interfazPCIe 4.0SXM4PCIe 4.0SXM4
Arquitecturaamperioamperioamperioamperio

En un nivel alto, la actualización de 80 GB al PCIe A100 es prácticamente lo mismo que hizo NVIDIA para la versión SXM. La GPU de la tarjeta de 80 GB tiene una frecuencia idéntica a la de la tarjeta de 40 GB, y las demandas resultantes sobre el rendimiento se mantienen sin cambios.

En cambio, esta versión gira en torno a la memoria integrada, y NVIDIA equipa la tarjeta con una memoria HBM2E más nueva. HBM2E es el nombre informal de la última actualización del estándar de memoria HBM2, que ya definió una nueva velocidad máxima de memoria de 3,2 Gbit / s / pin en febrero de este año. Junto con esta mejora de frecuencia, las mejoras de fabricación también han permitido a los fabricantes de memoria duplicar la capacidad de almacenamiento de 1 GB / dado a 2 GB / dado. La conclusión es que HBM2E ofrece mayores capacidades y anchos de banda más grandes, dos cosas que NVIDIA aprovecha aquí.

Con 5 pilas activas de 16 GB de almacenamiento 8-Hi, el PCIe A100 actualizado obtiene un total de 80 GB de almacenamiento. Lo que a 3.0 Gbit / s / pin conduce a casi 1.9 TB / s de ancho de banda de memoria para el acelerador, un aumento del 25% en comparación con la versión de 40 GB. Esto significa que el acelerador de 80 GB no solo ofrece más almacenamiento local, sino que rara vez ofrece ancho de banda de almacenamiento adicional para un modelo de mayor capacidad. Esto significa que para las cargas de trabajo vinculadas al ancho de banda de la memoria, la versión de 80 GB debería ser más rápida que la versión de 40 GB, incluso sin utilizar la capacidad de almacenamiento adicional.

Sin embargo, este almacenamiento adicional tiene su precio: el consumo de energía. Para el 80 GB A100, NVIDIA tuvo que configurar hasta 300 W para manejar el mayor consumo de energía de las pilas HBM2E más densas y de mayor frecuencia. Este es un cambio muy notable (si no exactamente sorprendente) en los TDP, ya que NVIDIA ha mantenido durante mucho tiempo la línea de sus aceleradores de cómputo PCIe en 250W, que se considera ampliamente como el límite para la refrigeración PCIe. Una tarjeta de 300 W no solo se diferencia de las tarjetas NVIDIA anteriores, sino que también significa que los integradores de sistemas deben encontrar la manera de proporcionar 50 W adicionales de refrigeración por tarjeta. No espero que esto sea un obstáculo para muchos diseños, pero definitivamente no me sorprendería si algunos integradores continúan ofreciendo solo tarjetas de 40GB como resultado.

E incluso entonces, el PCIe A100 de 80 GB parece reprimirse un poco debido a su factor de forma. La velocidad de memoria de 3,0 Gbit / s es un 7% menor que la del SXM A100 de 80 GB y su velocidad de memoria de 3,2 Gbit / s. Entonces, aparentemente, NVIDIA deja algo de ancho de banda de memoria sobre la mesa solo para que la tarjeta se ajuste al perfil expandido de 300W.

Con eso en mente, NVIDIA no parece haber cambiado el factor de forma del PCIe A100 en sí. La tarjeta está completamente enfriada de forma pasiva, diseñada para su uso con servidores con ventiladores de caja (incluso) más potentes y se alimenta mediante dos conectores de alimentación PCIe de 8 pines.

En términos de expectativas de rendimiento general, la nueva tarjeta PCIe de 80 GB debería quedar atrás de la tarjeta SXM, similar a los modelos de 40 GB. Desafortunadamente, la hoja de datos A100 actualizada de NVIDIA no incluye una métrica de rendimiento relativo esta vez, por lo que no tenemos números oficiales que comparen la tarjeta PCIe con la tarjeta SXM. Sin embargo, dadas las persistentes diferencias de TDP (300 W frente a 400 W +), esperaría que el rendimiento en el mundo real de la tarjeta PCIe de 80 GB esté cerca de la marca de 90 GB como la del mapa PCIe de 40 GB. Lo que sirve para reiterar que las velocidades de reloj de la GPU no lo son todo, especialmente en la era del hardware con TDP limitado.

En cualquier caso, la PCIe A100 de 80 GB está diseñada para los mismos casos de uso amplios que la versión SXM de la tarjeta, que se reduce aproximadamente al tamaño de los conjuntos de datos de IA y permite instancias de GPU de múltiples instancias (MIG) más grandes. En el caso de la IA, existen numerosas cargas de trabajo que pueden beneficiarse del uso de un conjunto de datos más grande en términos de tiempo de entrenamiento o precisión, y la capacidad total de memoria de la GPU ha sido un cuello de botella en esta área, ya que siempre hay alguien que podría usar más memoria. La tecnología MIG de NVIDIA, introducida en el A100, aprovecha la expansión de la memoria al permitir que se asigne más memoria a cada instancia; con un total de 7 instancias, cada una ahora puede tener hasta 10 GB de almacenamiento dedicado.

Para concluir, NVIDIA no está anunciando ninguna información específica sobre precios o disponibilidad hoy. Sin embargo, los clientes deben esperar ver pronto las tarjetas PCIe A100 de 80 GB.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir