Gráficos (Intel, AMD, Google, Xilinx)

5:28 p. M. EDT - ¡Bienvenido a Hot Chips! Esta es la conferencia anual sobre el último, mejor y próximo gran silicio que nos entusiasma a todos. Manténgase actualizado los lunes y martes para nuestros blogs en vivo regulares de AnandTech.

5:31 p.m. EDT - ¡La transmisión comienza! Tenemos Intel, AMD, Google, Xilinx

5:32 p.m. EDT - Uno de los proyectos más complejos de Intel

5:33 pm EDT - El objetivo es 500x en comparación con la mejor GPU de Intel hasta ahora

5:33 p. M. EDT - La escala es muy importante

5:33 p. M. EDT - Cuatro variantes de Xe

5:34 pm EDT - El mercado de exaescala necesita escala

5:34 pm EDT - amplio conjunto de tipos de datos

5:34 pm EDT - Núcleo Xe

5:34 pm EDT - No más EUs - Xe cores ahora

5:35 pm EDT - Cada núcleo en HPC tiene vectores de 8x 512 bits, motores matriciales de 8x4096 bits y una matriz sistémica de 8 profundidades

5:35 pm EDT - Gran caché L1 de 512 KB por núcleo Xe

5:35 pm EDT - Memoria compartida de bloc de notas configurable por software

5:36 p.m. EDT - 8192 x INT8 por núcleo Xe

5:36 p.m. EDT - Un segmento tiene 16 núcleos Xe, 16 unidades RT, 1 contexto de hardware

5:36 p.m. EDT - ProVis y creación de contenido

5:37 pm EDT - La pila es de cuatro rebanadas

5:37 pm EDT - 64 núcleos Xe, 64 unidades RT, 4 contextos de hardware, caché L2, 4 controladores HBM2e

5:37 pm EDT - 8 enlaces Xe

5:37 pm EDT - Soporta 2 pilas

5:38 pm EDT - conectado directamente por embalaje

5:38 pm EDT - Comunicación de GPU a GPU

5:38 pm EDT - 8 GPU completamente conectadas a través de un conmutador integrado

5:38 pm EDT - no para CPU a GPU

5:39 pm EDT - 8 GPU en OAM

5:39 p. M. EDT - Módulo acelerador OCP

5:39 p. M. EDT - 1 millón de INT8 / ciclo en un sistema

5:40 pm EDT - Embalaje extendido

5:41 p. M. EDT - Muchas cosas nuevas

5:41 p. M. EDT - EMIB + Foveros

5:41 p. M. EDT - 5 nodos de proceso diferentes

5:42 p.m. EDT - Tráfico de interconexión MDFI

5:42 p.m. EDT - muchos desafíos

5:42 p.m. EDT - Aprendió mucho

5:43 pm EDT - Plano de planta bloqueado muy temprano

5:43 pm EDT - Ejecute Foveros a 1,5 veces la frecuencia originalmente prevista para minimizar las conexiones de Foveros

5:43 pm EDT - Arrancado unos días después de la primera espalda de silicona.

5:44 p. M. EDT - Órdenes de magnitud más conexiones Foveros que otros diseños anteriores

5:44 p. M. EDT - Cálculo de mosaicos en TSMC N5

5:45 pm EDT - 640 mm2 por mosaico básico, basado en Intel 7

5:46 p.m. EDT - Xe Link Tile construido en menos de un año

5:47 p. M. EDT - Soporte OneAPI

5:47 p. M. EDT - 45 TFLOPS de rendimiento sostenido

5:48 pm EDT - Clientes a principios del próximo año

5:48 pm EDT - Preguntas y respuestas

5:50 pm EDT - P: PV de 45TF FP32 Compute - 45 TF de FP64? A: si

5:51 p.m. EDT - P: Más información sobre el contexto del hardware: ¿es 8x PV monolítico o 800 instancias? R: Parece un único dispositivo lógico, las aplicaciones independientes pueden ejecutarse de forma aislada a nivel de contexto.

5:53 p.m. EDT - P: ¿Xe Link es compatible con CXL? Si es así, ¿qué revisión? A: nada que ver con CXL

5:54 pm EDT - P: ¿La GPU está conectada a la CPU a través de PCIe o CXL? A: PCIe

5:54 pm EDT - P: ¿Ancho de banda de Xe Link? A: 90G Serdes

5:55 pm EDT - P: ¿Rendimiento máximo / TDP? R: No revelar: no hay números específicos de producto.

5:55 pm EDT - La siguiente conversación es AMD - RDNA2

5:57 pm EDT - CDN para informática frente a RDNA para juegos

5:57 pm EDT - Ambos se centran en los cálculos para cada dirección

5:58 pm EDT - Diseño flexible y adaptable

5:58 pm EDT - 18 meses después del primer producto RDNA

5:59 pm EDT - Caché infinito de 128 MB

5:59 pm EDT - Aumentar la frecuencia

5:59 pm EDT - RDNA desató el diseño de ciertos fundamentos de GCN

5:59 pm EDT - Perf / W es la métrica clave

5:59 pm EDT - Minimizar el desperdicio de energía

6:00 p.m. EDT - Soporte DX12 Ultimate, soporte para DirectStorage

6:00 p.m. EDT - Las consolas de próxima generación ayudaron a desarrollar el conjunto de funciones.

6:01 pm EDT - + 30% de frecuencia con potencia iso o menos de la mitad de potencia con frecuencia iso

6:02 p.m. EDT - Todo sin cambiar el nodo del proceso

6:03 p.m. EDT - RX5000 - RDNA1 - gran ancho de banda pero bajas tasas de aciertos

6:04 p.m. EDT - Intente evitar el uso de GDDR para reducir el rendimiento, ¡así que aumente las cachés!

6:04 p.m. EDT - Tasas de aciertos de caché de GPU

6:04 p.m. EDT - Los gráficos solían ser computación de una sola pasada.

6:05 p.m. EDT - Grandes cachés L3

6:07 pm EDT - menor energía por bit - solo 1.3 pJ / bit en la caché en comparación con 7-8 pJ / bit para GDDR6

6:08 pm EDT - La latencia de memoria promedio en el RX6800 es un 34% más baja que en el RX5700

6:10 p.m. EDT - Ray tracing en RDNA2

6:10 p.m. EDT - Sombreado de tasa variable

6:10 p.m. EDT - Comentarios del muestreador

6:10 p.m. EDT - Sombreador de malla

6:11 p.m. EDT - RT tenía como objetivo ser eficiente sin agregar gastos generales adicionales

6:12 pm EDT - estrechamente integrado en la arquitectura del sombreador

6:12 p.m. EDT - Implementación optimizada

6:13 p.m. EDT - VRS utiliza una selección de velocidad detallada por 8x8 píxeles

6:13 p.m. EDT - VRS hasta 2x2 en una cuadrícula de 8x8

6:16 p.m. EDT - Preguntas y respuestas

6:19 p.m. EDT - P: ¿Por qué Infinity Cache vs Stacked V-Cache? A: No discutido, solo clasificado en caché en el dado

6:22 p.m. EDT - P: ¿TDP% como CU en comparación con otros? R: Alta carga de trabajo, mayor rendimiento en CU - desglose exacto basado en la carga de trabajo - Las CU son más grandes, pueden exceder el 50%, 2. son bloques comunes de GPU, 3. Interfaz DRAM. Infinity Cache cambia el 2do / 3ro Posición. El cuarto es Infinity Cache

6:23 pm EDT - P: ¿SteamDeck Van Gogh? A: Sin comentarios

6:29 p.m. EDT - Charla de Google VCU

6:30 p.m. EDT - El video representa más del 60% del tráfico de Internet del mundo.

6:30 p.m. EDT - necesita mejores algoritmos

6:30 p.m. EDT - El video consigue que el hardware se comprima

6:31 pm EDT - AV1 requiere 200 veces más tiempo para codificar en software que H.264

6:31 pm EDT - Pixeles / segundo ha aumentado 8000 veces desde H.264

6:32 pm EDT - La mayoría del hardware de consumo está optimizado en función del costo, no del rendimiento o la eficiencia.

6:32 pm EDT - No se pudo encontrar todo en la oferta estándar.

6:32 pm EDT - Código 10 de versiones con entrada

6:33 p.m. EDT - Necesita acceso completo a las herramientas de configuración

6:34 p.m. EDT - Codificación y decodificación VP9 dedicada

6:36 p.m. EDT - Activar código SW / HW

6:38 p.m. EDT - Con HLS pudieron probar muchas variantes de arquitectura para funciones y rendimiento.

6:39 p.m. EDT - Los aceleradores deben escalar a la computación a nivel de almacenamiento.

6:40 pm EDT - Tolerar errores a nivel de chip y núcleo - La confiabilidad es una función suprema

6:40 pm EDT - Se deben admitir 48 codificaciones por decodificación (MOT)

6:40 pm EDT - Sube un video, codifica múltiples versiones

6:41 p.m. EDT - El caché a nivel de chip no fue efectivo

6:41 p.m. EDT - Núcleo cuenta para soportar grandes TÜV

6:41 p.m. EDT - LPDDR4 para ancho de banda por byte

6:41 p.m. EDT - Las memorias en chip utilizan ECC

6:42 p.m. EDT - diseño conservador de NOC

6:43 pm EDT - Una sola trama decodificada se puede utilizar varias veces - una decodificación para varias codificaciones

6:43 pm EDT - colas paralelas para una alta utilización

6:44 p.m. EDT - 2 ASIC por placa bifurcada, 5 placas por chasis, 2 chasis por host

6:44 p.m. EDT - Permita tantas máquinas por rack como lo permitan el espacio y el rendimiento

6:44 p.m. EDT - Rendimiento vs Skylake de doble zócalo

6:44 p.m. EDT - 100x VP9 frente a H.264

6:45 pm EDT - una máquina de 20 VCU reemplaza los racks con CPU

6:46 p.m. EDT - Calidad mejorada después de la implementación

6:47 p.m. EDT - Tiempo de preguntas y respuestas

6:49 p.m. EDT - P: ¿VCU puede funcionar con ASIC? R: No es posible, no hay derivación / derivación intermedia. Diseño estrechamente acoplado

6:50 pm EDT - P: ¿Cuál es el perfil de la tarjeta PCIe - Lanes / TDP? A: formato de bifurcación interna, de lo contrario FHFL de doble ranura, post silicio por debajo de 100 W

6:50 pm EDT - P: ¿Activación de VCU a través de GCP? R: Siempre buscando un GCP único, pero sin anuncios.

6:52 pm EDT - P: P: ¿Puede HLS alcanzar la paridad con RTL? A: si

6:54 pm EDT - P: ¿Cachés ECC SECDED? R: Si es posible SECDED, algunas SRAM en el codificador de códec solo reconocen; si ocurre un error, podemos restablecer el trabajo

6:54 pm EDT - P: 8K60 - ¿Puede una sola VCU hacer esto? R: Rendimiento, sí. Pero sin perfil VP9.

6:55 p.m. EDT - P: ¿Otros códecs? R: Sin comentarios sobre formatos futuros. Muy involucrado en AV1 AV2 de próxima generación

6:55 pm EDT - Q; ¿Secuencias de audio? R: La transmisión se interrumpe entre video / audio, podría interrumpirse y procesarse en otro lugar. VCU no afecta el audio

6:58 pm EDT - La última conversación es con Xilinx.

6:59 pm EDT - Xilinx Versal AI Edge

6:59 pm EDT - 7 nm

6:59 pm EDT - Arquitectura AIE-ML optimizada para inferencia

7:00 p.m. EDT - ¿Para qué se usa ML?

7:00 p.m. EDT - Todas las aplicaciones requieren mucha inteligencia artificial con baja latencia y bajo consumo de energía

7:02 p.m. EDT - Dispositivo de gama baja y alta destacado hoy

7:03 p.m. EDT - 10 fichas ML a 100 fichas

7:04 p.m. EDT - muchos factores de forma para Interece

7:05 pm EDT - Detalles de la arquitectura

7:05 pm EDT - Mosaicos de memoria, núcleo de cálculo optimizado

7:06 pm EDT - Soporte nativo para INT4 y BF16

7:07 pm EDT - SRAM está protegido con ECC

7:07 pm EDT - La cantidad de mosaicos de memoria depende del dispositivo: el área central tiene aproximadamente 38 megabytes de mosaicos de memoria

7:10 p.m. EDT - Nuevo mosaico centrado en ML para estos productos de gama media

7:10 p.m. EDT - La gama alta todavía usa AIE porque 5G lo necesita

7:10 p.m. EDT - Procesador de vectores VLIW

7:10 p.m. EDT - conexión sin bloqueo

7:10 p.m. EDT - micro-DMA

7:15 pm EDT - Movimiento de datos a nivel de dispositivo

7:15 pm EDT - Los mosaicos se pueden leer directamente desde DDR, no se requieren niveles intermedios

7:16 p.m. EDT - DDR admite compresión en vivo

7:20 pm EDT - La memoria está distribuida, sin replicación de datos, sin fallas de caché

7:23 PM EDT - Próximamente en la pila de software

7:23 PM EDT - No tienes que programar en C ++ - pytorch, Tensorflow, Caffe, tvm

7:24 p.m. EDT - Casos de uso

7:25 p.m. EDT - Cómo utilizar un procesador Versal AI Edge completo para un solo uso

7:31 p.m. EDT - Eso es un envoltorio

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir