Cómo volverse monolítico con mosaicos

Uno de los déficits críticos que Intel tiene con su plataforma de servidor en comparación con la competencia es la cantidad de núcleos; otras compañías permiten más núcleos de dos maneras: núcleos más pequeños o chiplets interconectados individuales. En su Día de la Arquitectura 2021, Intel anunció características de su plataforma escalable Xeon de próxima generación, incluido el cambio a una arquitectura en mosaico. Intel combinará cuatro mosaicos / chiplets a través de sus puentes integrados rápidos, lo que conduce a una mejor escalabilidad de la CPU con números de núcleo más altos. Como parte de la divulgación, Intel también ha ampliado su nueva tecnología Advanced Matrix Extension (AMX), compatibilidad con CXL 1.1, DDR5, PCIe 5.0 y una arquitectura de interfaz de acelerador que puede llevar a CPU Xeon personalizadas en el futuro.

Índice

    ¿Qué es Sapphire Rapids?

    Sapphire Rapids (SPR) se basa en un proceso Intel 7 y será el procesador de servidor escalable Xeon de próxima generación de Intel para su plataforma Eagle Stream. Con sus últimos núcleos de procesador Golden Cove, que presentamos la semana pasada, Sapphire Rapids reunirá una serie de tecnologías clave para Intel: motores de aceleración, soporte FP16 nativo con la mitad de precisión, DDR5, memoria persistente de la serie Optane DC 300, PCIe 5.0, CXL 1.1, un UPI más amplio y rápido, su última tecnología de puente (EMIB), nueva QoS y telemetría, HBM y aceleración especializada.

    Sapphire Rapids, que se lanzará en 2022, será el primer producto de CPU avanzado de Intel en aprovechar una arquitectura de múltiples matrices que tiene como objetivo minimizar la latencia y aumentar el ancho de banda debido a sus capacidades integradas de puente de interconexión de múltiples matrices. Esto permite más núcleos de alto rendimiento (Intel aún no ha dicho cuántos), con un enfoque en "métricas que son importantes para su base de clientes, como el rendimiento del nodo y el rendimiento del centro de datos". Intel llama a SPR "el mayor salto en capacidades de CC en una década".

    Las ventajas de los titulares son fáciles de quitar. PCIe 5.0 es una actualización de la generación anterior de Ice Lake PCIe 4.0, y estamos cambiando de seis controladores de memoria de 64 bits de DDR4 a ocho controladores de memoria de 64 bits de DDR5. Pero las mejoras más importantes están en los núcleos, aceleradores y empaque.

    Golden Cove: un núcleo de alto rendimiento con AMX y AIA

    Al utilizar el mismo diseño central en la plataforma empresarial Sapphire Rapids y la plataforma de consumo de Alder Lake, existen algunas de las mismas sinergias que vimos a principios de la década de 2000 cuando Intel hizo lo mismo. Cubrimos Golden Cove en detalle en nuestro Alder Lake Architecture Deep Dive, pero aquí hay un resumen rápido:

    Según Intel, el nuevo núcleo logrará una ganancia de IPC de más del + 19% para cargas de trabajo de un solo subproceso en comparación con Cypress Cove, el backport de Intel para Ice Lake. Esto está relacionado con algunos grandes cambios centrales que incluyen:

    • Decodificación de longitud 16B → 32B
    • Decodificación de 4 anchos → 6 anchos
    • Objetivos de rama de 5K → 12K
    • Caché de 2.25K → 4K μop
    • 5 → 6 asignación amplia
    • 10 → 12 puertos de ejecución
    • 352 → reordenar búfer con 512 entradas

    El objetivo de cada núcleo es procesar más cosas, más rápido, y la última generación está tratando de hacerlo mejor que antes. Muchos de los cambios de Intel tienen sentido, y se anima a los interesados ​​en obtener más información a leer nuestro análisis en profundidad.

    Existen algunas diferencias clave entre la versión para el consumidor de este núcleo en Alder Lake y la versión del servidor en Sapphire Rapids. Lo más obvio es que la versión para el consumidor no tiene AVX-512 mientras que SPR lo tiene habilitado. SPR también tiene 2 MB de caché L2 privada por núcleo, mientras que el modelo de consumidor tiene 1,25 MB. Además, estamos hablando de Advanced Matrix Extensions (AMX) y una nueva arquitectura de interfaz de acelerador (AIA).

    Hasta ahora hemos utilizado el modo escalar (normal) y el modo vectorial (AVX, AVX2, AVX-512) en los núcleos de CPU de Intel. El siguiente nivel de esto es un solucionador de matrices dedicado o algo así como un núcleo tensor en una GPU. AMX hace esto agregando un nuevo archivo de registro expandible con instrucciones AMX dedicadas en forma de instrucciones TMUL.

    AMX utiliza ocho registros de 1024 bits para operadores de datos básicos y, a través de referencias de memoria, las instrucciones TMUL funcionan con mosaicos de datos que utilizan estos registros de mosaicos. El TMUL es compatible con un coprocesador de motor dedicado integrado en el núcleo (cada núcleo tiene uno), y la base de AMX es que TMUL es solo uno de esos coprocesadores. Intel diseñó AMX para ir más allá: en caso de que Intel profundice con su estrategia de múltiples matrices de silicio, es posible que en algún momento veamos que se habilitan aceleradores personalizados a través de AMX.

    Intel confirmó que no deberíamos ver caídas de frecuencia peores que AVX: hay nuevos reguladores de potencia de grano fino por núcleo cuando se invocan comandos vectoriales y matriciales.

    Esto contribuye muy bien a la discusión sobre AIA, la nueva interfaz del acelerador. Normalmente, cuando se utilizan tarjetas de aceleración complementarias, los comandos deben navegar entre el kernel y el espacio del usuario, configurar el almacenamiento y dirigir cualquier virtualización entre varios hosts. La forma en que Intel describe su nueva interfaz Acceleration Engine es similar a un dispositivo PCIe, como si fuera simplemente un acelerador a bordo de la CPU, aunque esté conectado a través de PCIe.

    Intel inicialmente tendrá dos bits de hardware AIA capaces.

    La tecnología Intel Quick Assist Technology (QAT) es una de las que vimos anteriormente, ya que se mostró en variantes especiales del chipset Skylake Xeon (que requería un enlace PCIe 3.0 x16), así como una tarjeta PCIe adicional, que admite esa versión de hasta 400 Gb. / s criptografía simétrica o hasta 160 Gb / s de compresión más 160 Gb / s de descompresión al mismo tiempo el doble que la versión anterior.

    El otro es Data Streaming Accelerator (DSA) de Intel. Intel ha tenido documentación en Internet sobre DSA desde 2019, indicando que es un poderoso acelerador de copia y transformación de datos para transmitir datos desde la memoria y la RAM o hacia otras partes del sistema a través de una unidad de hardware de reasignación de DMA / IOMMU. DSA fue una solicitud de ciertos clientes de Hyperscaler que quisieran implementarlo en su propia infraestructura de nube interna, e Intel quisiera señalar que algunos clientes usarán DSA, algunos usarán la nueva Unidad de Procesamiento de Infraestructura de Intel mientras que otros usarán ambos, dependiendo del nivel de integración o abstracción que le interese. Intel nos informó que DSA es una actualización del motor Crystal Beach DMA que estaba presente en las plataformas Purley (SKL + CLX).

    Además, Sapphire Rapids también admite instrucciones AVX512_FP16 para obtener la mitad de precisión, principalmente para cargas de trabajo de inteligencia artificial como parte de su estrategia DLBoost (Intel se mantuvo bastante callado sobre DLBoost durante el evento). Además de la compatibilidad con INT8 y BF16, estos comandos FP16 también se pueden utilizar como parte de AMX. Intel ahora también es compatible con CLDEMOTE para la gestión de la línea de caché.

    Una palabra adjunta a CXL

    Durante las presentaciones de Sapphire Rapids, Intel se aseguró de que admitiría CXL 1.1 en el lanzamiento. CXL es un estándar de conectividad que fue diseñado para manejar mucho más que PCIe; además de actuar solo como una transferencia de datos desde el host al dispositivo, CXL tiene tres ramas para admitir conocidas como IO, Cache y Storage. Como se define en los estándares CXL 1.0 y 1.1, estos tres forman la base de una nueva forma de conectar un host a un dispositivo.

    Por supuesto, nuestra expectativa era que todos los dispositivos CXL 1.1 admitieran estos tres estándares. No fue hasta unos días después en Hot Chips que nos enteramos de que Sapphire Rapids solo admite parte del estándar CXL, específicamente CXL.io y CXL.cache, pero CXL.memory no sería parte de SPR. No estamos seguros de hasta qué punto esto significa que SPR no es compatible con CXL 1.1, o qué significa eso para los dispositivos CXL 1.1; sin CXL.mem, Intel simplemente pierde el soporte de Tipo 2 como se muestra en el diagrama anterior. Quizás esto sea más una indicación de que el mercado CXL está mejor servido por CXL 2.0, que sin duda aparecerá en un producto posterior.

    En la página siguiente, analizamos la nueva arquitectura en mosaico de Intel para Sapphire Rapids.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir