Aprendizaje automático (Graphcore, Cerebras, SambaNova, Anton)

Blog en vivo de AnandTech: Las últimas actualizaciones están en la parte superior. Esta página se actualizará automáticamente, no es necesario que actualice su navegador manualmente.

3:32 p.m. EDT - No necesita ningún otro software para cambiar de 1 dispositivo a 192 - el modelo de ejecución es siempre el mismo

3:31 p.m. EDT - enorme soporte de capa para hasta 100.000 dimensiones ocultas

3:29 PM EDT - Aceleración casi lineal con escasez

3:28 p. M. EDT - Se introduce la dispersión en la unidad MemoryX. Se transmiten pesos dispersos, SwarmX envía a CS-2. CS-2 calcula. Se generan gradientes dispersos. Los degradados se transmiten de vuelta, reducidos por SwarmX, actualizados en MemoryX. Todo sucede de forma nativa, el mismo proceso que con la computación densa

3:26 p. M. EDT - Rendimiento completo en todos los niveles de BLAS

3:26 p. M. EDT - acelera todo tipo de escasez

3:26 p. M. EDT - Control de datos de hardware para cálculos de datos distintos de cero

3:26 p. M. EDT - No hay hardware que pueda solucionar esta escasez, a excepción de Cerebras

3:25 pm EDT - Creando escasez en modelos densos

3:25 pm EDT - necesitan modelos dispersos para obtener las mismas respuestas con menos esfuerzo computacional

3:25 pm EDT - Requiere un campo de fútbol de silicona para ejecutar un modelo.

3:25 pm EDT - Supera la ley de Moore en un orden de magnitud.

3:25 pm EDT - '¿Es suficiente?' No, necesito modelos más inteligentes

3:23 pm EDT - Proyecta casi linealmente en 192 sistemas CS-2

3:23 pm EDT - modular y desagregado

3:23 pm EDT - Los gradientes se reducen en el camino de regreso, los pesos se transfieren en el camino de regreso.

3:22 PM EDT - SwarmX es independiente de CS-2 y MemoryX

3:22 PM EDT - Agrupar varios CS-2 a través de SwarmX

3:21 PM EDT - Soporte para MatMuls 100kx100k

3:20 pm EDT - No se requiere particionamiento con WSE2

3:19 PM EDT - Capacidad flexible con MemoryX

3:19 PM EDT - MemoryX se hace cargo de la escala de canalización inteligente

3:18 pm EDT - Cálculo interno para actualización / optimizador de peso

3:18 pm EDT - 120 billones de pesos. DRAM y memoria flash híbrida

3:18 pm EDT - Todos los parámetros en MemoryX hasta 2,4 PB de capacidad

3:18 pm EDT - Almacenar el modelo gigante

3:18 pm EDT - dos problemas principales de capacidad

3:17 pm EDT - ahora capacidad

3:17 pm EDT - el mismo rendimiento que con las pesas locales

3:17 pm EDT - Ocultar la latencia adicional con pesos adicionales

3:17 pm EDT - Los pesos se derraman cuando llega la siguiente corriente

3:16 p. M. EDT - tubería de grano grueso - una tubería formada por capas

3:16 p. M. EDT - Asegúrese de que la memoria de peso no sea sensible a la latencia

3:16 p. M. EDT - La transmisión de peso no tiene dependencias consecutivas

3:16 p. M. EDT - Resolviendo el problema de latencia

3:14 pm EDT - Pase hacia atrás, las pendientes se transmiten. MemoryX actualiza el peso, pero swarmX puede ayudar

3:14 pm EDT - Cuando hay un flujo, el CS-2 realiza el cálculo.

3:14 pm EDT - Todos los pesos de los modelos se guardan externamente y se transmiten al sistema CS2 si es necesario

3:13 p.m. EDT - Repensar el modelo de ejecución

3:13 p.m. EDT - 'Como pastel'

3:13 p.m. EDT - Programar clústeres como un solo sistema

3:13 p.m. EDT - Proceso de ejecución simple con la pila de software Cerebras

3:13 p.m. EDT - Diseñado para escalar el entrenamiento NN con escalado casi lineal

3:12 pm EDT - independientemente de la conexión SwarmX al controlador

3:12 pm EDT - memoria definida por el usuario para pesos

3:12 pm EDT - Tecnología MemoryX

3:12 pm EDT - Agregue memoria para almacenar parámetros y pesos

3:12 pm EDT - La unidad de cálculo básica es un solo CS-2, 850k núcleos, 14 kW, 1,6 TB / s de ancho de banda

3:11 PM EDT - puede escalar la memoria o calcularla según sea necesario

3:11 PM EDT - Resolver la memoria del modelo de Compute a partir del conjunto de datos

3:10 PM EDT - Utilice la transmisión de peso en lugar de la transmisión de datos

3:10 PM EDT - escala fácilmente con solo presionar un botón

3:10 PM EDT - Aceleración de ahorro de peso 10x

3:10 PM EDT - hasta 192 WSE-2 con escalado de rendimiento casi lineal

3:10 PM EDT - tiene que correr rápido también

3:09 p.m. EDT - como sinapsis en el cerebro

3:09 p.m. EDT - Cerebras para escala extrema: nuevo estilo de ejecución, admite hasta 120 billones de parámetros

3:09 p.m. EDT - Cómo solucionar este problema de estilo Cerebras

3:09 p.m. EDT - Se convierte más en un problema de complejidad de distribución que en un problema de NN

3:09 p.m. EDT - Más sincronización

3:09 p.m. EDT - Más particiones del modelo en más chips

3:08 pm EDT - Almacenamiento masivo, potencia informática masiva, E / S masiva

3:08 pm EDT - pero los modelos grandes son difíciles de soportar

3:08 pm EDT - algo tiene que cambiar en el silicio - necesita un mejor enfoque

3:08 pm EDT - Próximos modelos de parámetros multimillonarios

3:07 pm EDT - Los enfoques tradicionales no pueden mantenerse al día

3:07 pm EDT - cuesta unos pocos millones

3:07 pm EDT - Sistema CS-2 a la venta hoy

3:06 p.m. EDT - 850k núcleos

3:06 p.m. EDT - 2,6 billones de transistores

3:06 p.m. EDT - Lanzado en 2016, WSE-1 en 2019

3:05 pm EDT - Nuevas configuraciones del sistema WSE-2

3:05 pm EDT - La próxima conversación es con Cerebras

3:00 p.m. EDT - P: ¿Los resultados son deterministas? R: Sí, porque cada hilo y cada mosaico tiene su propia semilla. Puede colocar semillas manualmente

3:00 p.m. EDT - P: La sincronización es mesócrona, pero estática. En el peor de los casos, ¿asume retrasos en el reloj o algo más? R: Actúa como sincrónicamente. En la práctica, los relojes y las fechas se persiguen. Disposición en espiga del intercambio para que sea más fácil

2:58 pm EDT - Preguntas y respuestas

2:56 p.m. EDT - Más SRAM en el chip significa que se requiere menos ancho de banda de DRAM

2:55 pm EDT - El ancho de banda DDR fuera del chip es suficiente para transmitir estados de peso para modelos grandes

2:54 p.m. EDT - No hay tales gastos generales en la RDA.

2:54 p.m. EDT - VEndor agrega margen con CoWoS

2:54 p.m. EDT - Costos adicionales para CoWoS

2:54 p.m. EDT - 40 GB HBM triplica el costo de un procesador

2:53 p.m. EDT - HBM tiene un problema de costes - IPU habilita DRAM

2:53 p.m. EDT - DDR para capacidad de modelo

2:53 p.m. EDT - No utilice HBM - en SRAM, DRAM con ancho de banda bajo

2:52 pm EDT - IPU más eficiente en TFLOP / vatio

2:52 pm EDT - domina la energía aritmética

2:52 pm EDT - 60/30/10 en el gráfico circular

2:51 p.m. EDT - pJ / flop

2:51 p.m. EDT - rendimiento del chip

2:50 pm EDT - Deriva de 3 ciclos a través del chip

2:50 pm EDT - Reemplazar la columna

2:50 pm EDT - Equilibrio de carga del compilador de los procesadores

2:49 PM EDT - 60% de ciclos de computación, 30% de intercambio, 10% sincrónico. Depende del algoritmo

2:49 PM EDT - Seguimiento del programa

2:48 pm EDT - Evite los datos FP32 con redondeo estocástico. Ayuda a minimizar el redondeo y el consumo de energía.

2:48 pm EDT - a toda velocidad

2:48 pm EDT - puede redondear estocásticamente

2:48 pm EDT - Cada mosaico puede generar 128 bits aleatorios por ciclo

2:47 p. M. EDT - TPU se basa demasiado en troqueles grandes para un alto rendimiento

2:46 p.m. EDT - FP16 y FP32 MatMul y pliegues

2:46 p.m. EDT - Acceso SRAM del lado de datos de 47 TB / s

2:45 pm EDT - Reloj global de 1.325 GHz *

2:45 pm EDT - Esforzarse por equilibrar la carga

2:44 p.m. EDT - 6 subprocesos de ejecución, inicie subprocesos de trabajo para hacer el trabajo pesado

2:44 p.m. EDT - Instrucciones de 32 bits, emisión simple o doble

2:43 p.m. EDT - 823 mm2, TSMC N7

2:43 p.m. EDT - Reloj global de 25 GHz

2:43 p.m. EDT - 24 mosaicos, 23 se utilizan para dar redundancia

2:43 p.m. EDT - La mitad del cubo es un recuerdo

2:41 p.m. EDT - Puede usar Pytorch, Tensorflow, ONNX, pero se prefiere la propia pila de software Poplar

2:41 p.m. EDT - 800-1200 W típico, 1500 W pico

2:41 p.m. EDT - 1,2 Tb / s fuera de la vivienda IO

2:40 p.m. EDT - Host proxy ligero

2:40 p.m. EDT - 4 IPU en una 1U

2:39 p.m. EDT - 896 MiB SRAM en N7

2:38 pm EDT - dentro de una retícula

2:38 pm EDT - Este chip tiene más transistores que cualquier otro chip TSMC N7

2:38 pm EDT - 'Registro de transistores reales en un chip'

2:38 pm EDT - Cercas de hilo para la comunicación.

2:37 pm EDT - Computación paralela síncrona a granel

2:37 pm EDT - Abstracción de hardware: mosaicos con procesadores y memoria con una interconexión IO

2:37 pm EDT - El programa de control puede controlar el cálculo gráfico para que se ejecute en hardware especial

2:36 p.m. EDT - Creación de hardware para la resolución de diagramas.

2:36 p.m. EDT - Se acabó el escalado clásico

2:35 pm EDT - Incluir datos de gráficos a través de AI

2:34 p. M. EDT - '¿Por qué necesitamos nuevo silicio para la IA?'

2:34 p. M. EDT - Nuevo tipo de procesador estructural: la IPU

2:34 p. M. EDT - Diseñado para IA

2:33 p.m. EDT - La primera charla es CO-Founder, CTO, Graphcore, Simon Knowles. Coloso MK2

2:32 p.m. EDT - 'ML no es el único juego en la ciudad'

2:30 p.m. EDT - El amigo de AT, David Kanter, preside esta sesión.

2:30 p.m. EDT - Empiece aquí en unos minutos

2:28 p. M. EDT - ¡Bienvenido a Hot Chips! Esta es la conferencia anual sobre el último, mejor y próximo gran silicio que nos entusiasma a todos. Manténgase actualizado los lunes y martes para nuestros blogs en vivo regulares de AnandTech.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir