Aprendizaje automático (Esperanto, Enflame, Qualcomm)

11:08 am EDT - ¡Bienvenido a Hot Chips! Esta es la conferencia anual sobre el último, mejor y próximo gran silicio que nos entusiasma a todos. Manténgase actualizado los lunes y martes para nuestros blogs en vivo regulares de AnandTech.

11:08 am EDT - El evento comienza a las 8:30 a.m. PT, aproximadamente 22 minutos

11:25 am EDT - Empiece aquí en unos 5 minutos.

11:30 a.m. EDT - Primero una conferencia de Esperanto Technologies

11:31 am EDT - AI Accelerator - 1000 núcleos RISC-V en un chip

11:32 am EDT - 1088 núcleos RISC-V

11:32 am EDT - Minion ET con unidades tensoras

11:33 EDT - 160 millones de bytes de SRAM a bordo

11:33 EDT - PCIe x8 Gen 4

11:33 EDT - Hasta 200 tera ops

11:33 EDT - Menos de 20 vatios para conclusiones.

11:33 EDT - Centrarse en modelos de recomendación

11:34 am EDT - tradicionalmente se ejecuta en x86

11:34 am EDT - estos servidores requieren tarjetas adicionales

11:34 am EDT - Bajo presupuesto de energía por tarjeta

11:34 am EDT - Soporte para múltiples tipos de datos

11:34 am EDT - cargas de trabajo densas y escasas

11:34 am EDT - ser programable

11:35 am EDT - Reducir las referencias de memoria fuera de matriz

11:36 a. M. EDT - El hardware con una función fija puede quedar obsoleto rápidamente

11:37 am EDT - Miles de hilos

11:38 EDT - Paralelismo limitado para chips grandes individuales

11:38 EDT - Miles de núcleos RISC-V en esperanto

11:38 EDT - Los chips grandes tienen un gran poder

11:38 EDT - El esperanto lo divide en chips

11:38 EDT - permite un voltaje más bajo, aumenta la eficiencia

11:38 EDT - Potencia de recomendación más alta dentro de 120 W en seis chips

11:40 am EDT - TSMC FinFET de 7 nm

11:40 am EDT - Apague el voltaje por núcleo

11:40 am EDT - Las dinámicas de C son difíciles

11:41 EDT - Eficiencia frente a voltaje: 0.34 es lo mejor

11:42 EDT - Conclusiones por segundo por vatio

11:42 EDT - Un chip podría usar 275 W en su punto máximo

11:42 EDT - 0,75 voltios es 164 W por chip

11:43 EDT - La mejor eficiencia es 8.5 W - 2.5 veces mejor desempeño que 0.9 voltios

11:44 EDT - Procesador Risc-V de 64 bits, caché de datos l1 configurable por software

11:44 EDT - tubería en orden

11:44 EDT - SMT2

11:45 am EDT - 300 MHz a 2 GHz

11:45 am EDT - puede ejecutar 64 operaciones con una instrucción tensorial

11:45 am EDT - 64k operaciones

11:45 am EDT - Entero de 512 bits de ancho por ciclo, FP de 256 bits de ancho por ciclo, por núcleo

11:46 EDT - 8 núcleos en un chip forman un vecindario

11:46 EDT - antes de que los largos se convirtieran en un problema

11:46 am EDT - 8 minions comparten un único caché de instrucciones grande

11:46 EDT - mucho más eficiente que cualquier núcleo con su propio I-cache

11:47 am EDT - cargas cooperativas

11:47 am EDT - instrucciones personalizadas

11:47 am EDT - 4 vecindarios hacen un condado

11:47 am EDT - con SRAM compartida de 4 MB

11:48 am EDT - Conexión de malla en cada Comarca

11:48 am EDT - Los bancos SRAM se pueden particionar como L2 privado o L3 compartido

11:48 am EDT - Las mallas corren sobre los granos

11:48 am EDT - 16 controladores LPDDR4X

11:49 am EDT - LPDDR4X de 256 bits de ancho

11:49 am EDT - Seis chips y 24 chips LPDDR4 en una tarjeta PCIe con un conmutador PCIe

11:49 am EDT - 192 GB de memoria del acelerador

11:49 am EDT - Ancho de banda de memoria total de 822 GB / s por tarjeta PCIe

11:50 a.m. EDT - Versiones OCP

11:50 a.m. EDT - Cómo escalar la implementación

11:50 a.m. EDT - 6 chips tienen un solo esparcidor de calor

11:51 am EDT - Software sobre muchas interfaces

11:52 a. M. EDT - Potencia proyectada del esperanto

11:54 am EDT - Cuatro poderosos ET maxions

11:54 am EDT - RV64GC-ISA completo

11:54 am EDT - 24 mil millones de transistores, 570 mm2, 89 capas de máscara

11:54 am EDT - Primer silicio en crianza

11:55 EDT - Silicio A0 en la prueba

11:55 EDT - El chip RISC-V comercial más potente hasta la fecha

11:55 EDT - Acceso anticipado para clientes calificados más adelante en 2021

11:56 a. M. EDT - Q * Una vez

11:58 EDT - P: El almacenamiento externo y la alimentación de E / S se agregan a más de 20W - A: Se incluyen los E / S. 20W incluye DRAM y otros componentes

12:00 p.m. EDT - P: ¿Por qué no BF16? R: Lo hace de forma nativa, pero BF16 se expandiría a FP32 para computación y se volvería a colocar en memoria en BF16. Porque hacemos inferencia: el cliente quiere inferencia, no necesita un BF16

12:01 PM EDT - P: Tamaño de caché de datos de uso general A: Con un área de 1000 núcleos, es importante mover L1 / L2 a través de múltiples niveles. Circuitos especiales: mantienen un voltaje muy robusto, tienen que usar una SRAM grande para bajo voltaje. 4 KB L1 entregó una buena tasa de aciertos con L2 para rendimiento

12:02 pm EDT - La próxima conferencia está en llamas.

12:02 pm EDT - Primera generación

12:02 pm EDT - Diseñado en 2018, introducido en 2019

12:03 pm EDT - DTU 1.0

12:03 pm EDT - 80 TF BF16, FinFet de 12 nm, 14.1 mil millones de transistores, interconexión de 200 GB / s

12:04 pm EDT - 16 carriles PCIe 4.0

12:04 pm EDT - 300W

12:05 pm EDT - 2 HBM2 con 512 GB / s

12:05 pm EDT - 32 núcleos de IA

12:05 pm EDT - ip networkj

12:05 pm EDT - 4 grupos de 8 unidades tensoras

12:06 pm EDT - 40 motores de transferencia de datos

12:06 pm EDT - Red en chip *

12:06 pm EDT - VLIW programable

12:06 pm EDT - Bus de 1024 bits con

12:06 pm EDT - 256 KB de datos L1

12:06 pm EDT - Motor DMA con interfaz de 1 KB

12:07 pm EDT - Mantenimiento de GPU 1.0

12:07 pm EDT - 256 núcleos de computación tensorial

12:07 pm EDT - Cada kernel admite 1x MAC de 32 bits o MAC de 4x16 bits / 8 bits. Todos los núcleos hacen todas las precisiones

12:08 pm EDT - Introducir escasez de poder

12:08 pm EDT - puede omitir instrucciones por completo cuando se detecta una instrucción de potencia cero

12:09 PM EDT - 2 kbit por ciclo para ahorrar, 1 kbit por ciclo para cargar

12:09 PM EDT - Suma y agrupación de soporte Cector y Scalar

12:10 p.m. EDT - El hardware puede agregar elementos de relleno para la mejor eficiencia en relación con la detección de comandos de potencia cero

12:11 EDT - 256 núcleos admiten operaciones de convolución

12:12 EDT - Admite diferentes formas de tensor

12:12 EDT - debe tenerlo en una potencia de dos límites

12:13 p.m. EDT - Caché L0 con ancho de banda de 10 TB / s

12:13 p.m. EDT - Flujo de datos asincrónico y canalización de cálculo

12:14 p.m. EDT - Tensores 4D

12:14 p.m. EDT - Apoya la transformación dimensional

12:15 p.m. EDT - E / S bidireccional de 200 GB / s por tarjeta

12:15 p.m. EDT - Protocolo personalizado con latencia de menos de un microsegundo

12:15 p.m. EDT - Cables a racks sin DMA. avergonzado

12:16 EDT - AIC y OAM

12:17 pm EDT - Escala a cápsula toroidal 2D

12:18 EDT - Rendimiento de hasta 160 grupos de tarjetas

12:20 p.m. EDT - Próximo producto listo pronto

12:20 p.m. EDT - Preguntas y respuestas

12:21 EDT - P: ¿Existe una carga de entrenamiento objetivo? R: Entrenamiento, visión asistida y procesamiento de lenguaje de máquina. El primer cliente usó MLP

12:21 EDT - P: ¿Por qué debería desarrollar su propio protocolo de chip a chip? ¿Es coherente la caché? R: No es un buzón coherente de caché con sincronización de datos. queríamos un protocolo más ligero con mejor latencia

12:22 EDT - P: ¿Vender a Occidente? R: Actualmente hay clientes de Asia, pero si estás interesado ven a Enflame

12:22 EDT - La próxima charla es Qualcomm Cloud AI 100

12:23 EDT - 12 TOPS / vatio

12:23 EDT - acelerador potente y eficiente

12:23 EDT - Otra introducción a lo que impulsa la IA

12:24 pm EDT - Qualcomm a la vanguardia de la investigación de IA, actualmente en su sexta generación

12:25 EDT - factor de forma dos - alto rendimiento en PCIe HHHL y un M.2 dual más eficiente en el consumo de energía

12:25 EDT - Película SoC al más alto nivel

12:26 EDT - arquitectura de alto rendimiento a medida

12:26 EDT - 400+ Int8 TOP

12:26 EDT - PCIe 4.0 de 8 carriles

12:26 EDT - LPDDR4 de 16 GB / sof

12:26 EDT - Almacene todos los pesos en el SoC con 144 MB de memoria en chip

12:27 EDT - Dual M.2 es para fuente de alimentación

12:27 EDT - Controlador de gestión de energía

12:27 EDT - VLIW de 4 vías

12:27 EDT - 1800+ instrucciones

12:27 EDT - Núcleo escalar SMT

12:27 EDT - FP32 / FP16 y INT16 / INT8

12:28 EDT - 1 MB de caché L2

12:28 EDT - unidad de vector, unidad de tensor

12:28 EDT - Vector de memoria estrechamente acoplada de 8 MB entre todas las unidades

12:28 EDT - casi todo

12:29 EDT - Se puede operar con diferentes niveles de potencia.

12:29 EDT - 12 W para Edge, 20 W para ADAS, modo de alto rendimiento de 70 W

12:29 EDT - 7 nm

12:30 p.m. EDT - La unidad tensor es 5 veces más eficiente que la unidad Vecotr

12:30 p.m. EDT - 16 núcleos de IA

12:30 p.m. EDT - 5 TOPs / W con alto rendimiento

12:31 p.m. EDT - Pila completa para inferencias

12:33 p.m. EDT - El compilador admite precisión mixta

12:36 p.m. EDT - Optimizaciones para bajo rendimiento

12:36 p.m. EDT - Minimice el acceso a DDR y mejore el rendimiento

12:36 p.m. EDT - Reutilice las fechas con la mayor frecuencia posible para comenzar antes de obtener más

12:39 EDT - Divide una red en varias tarjetas AI100

12:39 EDT - hasta 16 tarjetas por sistema

12:39 EDT - Conmutador PCIe para peer-to-peer

12:41 EDT - Rendimiento en INT8 y Mixto, todas las conclusiones

12:42 p.m. EDT - 'Métricas de rendimiento líderes en la industria'

12:42 p.m. EDT - Rendimiento frente a tamaño de lote

12:44 EDT - AIMET puede realizar compresión interna para inferencia

12:44 EDT - 15% más de ResNET50-Perf con solo un 1,1% menos de precisión

12:45 pm EDT - Implementación perimetral frente a implementación de servidor

12:45 pm EDT - DM.2e = doble M.2

12:45 pm EDT - TDP de 15 W en este M.2 dual

12:46 p.m. EDT - Solución escalable para 5G, ADAS, infraestructura

12:46 p.m. EDT - Tiempo de preguntas y respuestas

12:47 EDT - P: ¿Los puntos de crédito se ajustan estática o automáticamente? R: El chip tiene DVFS: DVFS puede cambiar según el rendimiento. Para TDP, puede configurar TDP en el firmware según la solución

12:47 EDT - P: ¿12 niveles de placa basados ​​en TOPS / W o niveles de chip? Un chip

12:49 EDT - P: ¿Cuáles son las principales razones para obtener tops / WA: Buenos bloques de construcción - 6th Gen. Ha estado en el negocio durante mucho tiempo. Lo he estado haciendo en teléfonos celulares durante mucho tiempo, especialmente en inferencia. El bloque básico es eficiente. VLIW: el compilador realiza algunas mejoras y simplifica el hardware. Mismo proceso para el nivel de SoC. No coherente en caché, habilitado por el compilador

12:51 p.m. EDT - P: Compromisos entre VLIW y RISC A: ML va muy bien con VLIW, tienes algunas ideas. Sabemos cómo hacer núcleos VLIW muy eficientes. Sin embargo, la carga de trabajo es adecuada para VLIW. Hice una evaluación, pero descubrí que esta es la mejor manera de hacerlo.

12:51 p.m. EDT - P: ¿Detalles del NOC? ¿Cuadrícula, travesaño? R: Híbrido, más lineal con enrutadores

12:53 p.m. EDT - P: ¿Array sistólico? En un

12:53 p.m. EDT - F: el núcleo escalar es RISCV A: VLIW patentado

12:55 EDT - Eso es un envoltorio

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir