La supercomputadora DoE recibe 400.000 núcleos de IA

Uno de los proyectos de silicio de IA más interesantes de los últimos años ha sido el motor Cerebras Wafer Scale Engine, especialmente debido al hecho de que un solo chip es del tamaño de una oblea literal. Cerebras empaqueta el chip WSE1 en un servidor refrigerado por líquido de 15U, el CS-1, con una serie de innovaciones en términos de empaque, rendimiento y configuración. Un solo CS-1 requiere una potencia máxima de unos 20 kW y cuesta unos pocos millones de dólares (el Pittsburgh Supercomputing Center compró dos el año pasado basándose en una subvención de investigación de $ 5 millones). Cerebras afirma tener clientes de dos dígitos y varias docenas de unidades en uso. Hoy, sin embargo, este es un hito importante ya que el Departamento de Energía de EE. UU. Ahora tiene uno implementado y funcionando que está conectado directamente a una supercomputadora.

Es bastante fácil preguntarse por el diseño de Cerebras, que incluye una serie de innovaciones y patentes relacionadas con la conectividad entre las retículas. Los 400,000 núcleos de IA en el procesador están diseñados para resistir defectos de fabricación al ofrecer núcleos de reemplazo para todo el diseño utilizado en su lugar. Esto le da a cada oblea un muy buen rendimiento: se pueden utilizar todas las virutas de la línea de producción. Como proveedor de soluciones, no solo como diseñador de chips, Cerebras vende WSE1 en una unidad de rack de 15U independiente. El objetivo del diseño del CS-1 es que se adapte a cualquier centro de datos estándar, conecte la alimentación y la red, y listo.

En el lado del software, Cerebras tiene su propio compilador de gráficos para su chip, que acepta redes de IA basadas en TensorFlow y pyTorch y luego las configura de manera óptima alrededor del chip masivo. Ese año en Hot Chips, la compañía entró en algunos detalles sobre cómo funciona la programación en la escala de obleas. El compilador equilibra los recursos informáticos y en el chip para encontrar las mejores compensaciones entre el rango y el rendimiento para una función o kernel de IA determinada. Cada kernel se puede dividir en paralelo de modelo o paralelo de datos para generar el patrón de comunicación óptimo, para maximizar el rendimiento y, en última instancia, el uso en el chip. Los usuarios también pueden optimizar manualmente el kernel si es necesario. El compilador de gráficos también fue diseñado para manejar redes dispersas de manera eficiente, especialmente con un chip tan grande y 18 GB de SRAM integrado y un diseño MIMD completo.

Sin embargo, la noticia de hoy es que Cerebras anuncia una instalación de CS-1 muy importante. Puede que solo sea una unidad, pero el Laboratorio Nacional Lawrence Livermore (LLNL), financiado por la Administración Nacional de Seguridad Nuclear del Departamento de Energía, compró una unidad CS-1 y la 'Lassen' en su 23 PetaFLOP Supercomputadora enroscada. La supercomputadora Lassen es una supercomputadora Power9 + Volta + Infiniband con 684 nodos, que fue calificada con alrededor de 23 PetaFLOP y actualmente es la número 14 en la lista TOP500.

El objetivo de agregar un CS-1 a Let es acelerar y descargar la asistencia específica en la investigación y el modelado de IA. Lassen se utiliza principalmente para simulaciones nucleares, ciencia de materiales, diseño de fármacos y análisis médicos. Estos proyectos a menudo incluyen áreas de búsqueda de análisis por computadora más largas que el universo, y estos proyectos están comenzando a utilizar el entrenamiento y la inferencia de IA para reducir y optimizar los espacios de búsqueda donde se necesita el cálculo para reducir el desperdicio de cálculos. y minimizar los errores. Este será uno de los objetivos del CS-1 relacionado con Lassen, tanto para entrenar estos modelos de espacios de búsqueda como para aplicarlos a mayor escala a través de la inferencia. Esta es la primera vez que LLNL agrega hardware específico de IA a su repertorio computacional. El término utilizado para adjuntar la aceleración de la IA a las computadoras HPC se conoce como simulación cognitiva o CogSim para abreviar.

“Necesitamos nuevas respuestas para mejorar nuestra capacidad de cumplir con los requisitos de nuestra misión y responder a las crecientes demandas informáticas. La simulación cognitiva es un enfoque que creemos que puede conducir a una mejora continua en las habilidades exponenciales. Un enfoque heterogéneo a nivel de sistema basado en arquitecturas novedosas como el Cerebras CS-1 es una parte importante de estas mejoras. ", Dijo Bronis R. de Supinski, director de tecnología de Livermore Computing, quien dirigió los esfuerzos de adquisición de CS-1.

En una entrevista con Cerebras, obtuvimos una idea de cómo funciona uno de estos sistemas. Pasaron menos de 60 días desde las primeras discusiones sobre el uso hasta el uso activo por parte de los investigadores. Activar el CS-1 a través de un administrador de carga de trabajo fue poco más que una sola línea de Slurm, y los usuarios reciben tiempo de cálculo en el CS-1 a través de una cola de división de tiempo. Actualmente, el CS-1 no puede admitir varios usuarios al mismo tiempo, lo que, según Cerebras, fue uno de los compromisos cuando se lanzó el WSE1 en la escala de tiempo que tenían. Es probable que las iteraciones futuras funcionen hacia este objetivo.

Como parte de la venta, Cerebras y LLNL están trabajando en un nuevo Centro de Excelencia de IA (AICoE) para desarrollar y desarrollar los parámetros óptimos para acelerar este tipo de simulación cognitiva en el flujo de trabajo del laboratorio. Dependiendo de los resultados, según el comunicado de prensa, esto puede significar que más sistemas Cerebras se conectarán a Lassen en el futuro. Este podría ser CS-1 o posiblemente el nuevo WSE2 que Cerebras bromeó al final de su charla sobre Hot Chips 2020.

Fuente: LLNL, Cerebras

Lectura relacionada

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir