Ayude a resolver la escasez de silicio

Hoy, Xilinx anuncia una adición a su familia Versal que se enfoca específicamente en dispositivos de borde y de bajo consumo. Xilinx Versal es la producción de una combinación de muchas tecnologías de procesador diferentes: puertas lógicas programables (FPGA), núcleos de brazo, memorias rápidas, motores de inteligencia artificial, DSP programables, controladores de memoria reforzados e IO: las ventajas de todas estas tecnologías hacen que Versal sea de lo mejor -end premium (introducido en 2020) a dispositivos de clase de borde, todos basados ​​en los procesos de 7 nm de TSMC. Los nuevos procesadores Versal AI Edge de Xilinx comienzan en 6W hasta 75W.

Índice

    Fuera al ACAP

    Hace unos años, Xilinx vio un cambio en las necesidades de sus clientes; aunque los clientes son proveedores de FPGA, los clientes querían algo que fuera más como un procesador normal, pero con la flexibilidad de un FPGA. En 2018, la compañía introdujo el concepto de ACAP, una plataforma de aceleración de computación adaptable que, como un procesador convencional, ofrece potencia de cómputo reforzada, memoria y E / S, pero también una amplia lógica programable y motores de aceleración de una FPGA. Los primeros procesadores ACAP de gama alta basados ​​en TSMC N7 se introdujeron en 2020 y cuentan con chips premium grandes, algunos con HBM, para cargas de trabajo de alto rendimiento.

    Entonces, en lugar de tener un diseño que es 100% FPGA, el diseño ACAP de Xilinx permite una gama completa de bloques de IP estandarizados, dedicados y de menor rendimiento al traducir parte de esa área de la matriz a una lógica reforzada, como núcleos de procesador o un área de matriz más pequeña de memoria mientras todavía mantener una buena parte del silicio para FPGA para que los clientes puedan implementar soluciones lógicas personalizadas. Esto fue importante para el mayor desarrollo de la IA, ya que los algoritmos continúan desarrollándose, se forman nuevos marcos o las diferentes redes informáticas requieren diferentes proporciones de recursos. Un FPGA en chip junto con IP reforzado estándar permite que la instalación de un solo producto dure muchos años mientras los algoritmos se reequilibran y actualizan.

    Xilinx Versal AI Edge: próxima generación

    En cuanto al último punto de tener un producto instalado durante una década y tener que actualizar los algoritmos, esto no es más cierto en ningún área que con los dispositivos tradicionales de "borde". En el “borde” hablamos de sensores, cámaras, sistemas industriales, sistemas comerciales: dispositivos que tienen que sobrevivir a su larga vida de instalación con el hardware que contienen. En la actualidad, existen sistemas de borde basados ​​en hardware anterior a 2000 que le brindan margen para este mercado. Como resultado, siempre existe el deseo de hacer que los dispositivos periféricos sean más adaptables a los requisitos cambiantes y los casos de uso. Esto es lo que busca Xilinx con su nuevo portafolio Versal AI Edge: la capacidad de actualizar continuamente funciones "inteligentes" en dispositivos como cámaras, robótica, automatización, medicina y otros mercados.

    El dispositivo Versal tradicional de Xilinx contiene varios motores escalares (núcleos Arm A72 para aplicaciones, núcleo Arm R5 para tiempo real), motores inteligentes (bloques AI, DSP), motores adaptativos (FPGA) e IO (PCIe, DDR, Ethernet, MIPI). Con los productos Versal más grandes, estos son grandes y potentes, lo que es posible gracias a una red programable en el chip. Hay dos funciones nuevas en la mezcla para la plataforma AI Edge de Versal.

    Primero, el uso de Accelerator SRAM se coloca muy cerca de los motores escalares. A diferencia de los cachés tradicionales, este es un scratchpad configurable dedicado con una SRAM densa a la que los motores pueden acceder con baja latencia en lugar de atravesar el bus de memoria. Las cachés tradicionales utilizan algoritmos predictivos para extraer datos de la memoria principal, pero si el programador conoce la carga de trabajo, puede asegurarse de que los datos que se necesitan en los puntos más críticos de latencia ya se puedan colocar cerca del procesador, antes de que los predictores sepan qué hacer. hacer. Ese bloque de 4 MB tiene una latencia determinista que permite que el R5 en tiempo real participe también, y le da al R5 12,8 GB / s de ancho de banda. También tiene un ancho de banda de 35 GB / s para los motores de inteligencia artificial para los datos que deben procesarse en esa dirección.

    La otra actualización está en los propios motores de IA. El hardware Xilinx Versal original habilitó ambos tipos de aprendizaje automático: entrenamiento e inferencia. Estas dos cargas de trabajo tienen diferentes puntos de optimización para la potencia de cómputo y la memoria, y aunque los chips grandes eran importantes para admitir ambos, estos procesadores de borde se utilizan casi exclusivamente para inferencias. Como resultado, Xilinx ha reconfigurado el núcleo y llama a estos nuevos motores "AIE-ML".

    La configuración AIE-ML más simple en el procesador de 6 W tiene 8 motores AIE-ML, el más grande tiene 304. Lo que lo distingue de los motores habituales es el doble caché de datos locales por motor, mosaicos de memoria adicionales para el SRAM S Access global y soporte nativo para tipos de datos específicos de inferencia como INT4 y BF16. Además, los multiplicadores también se duplican, lo que permite duplicar el rendimiento de INT8.

    La combinación de estas dos características significa que Xilinx ofrece 4 veces el rendimiento por vatio de las soluciones de GPU tradicionales (en comparación con AGX Xavier), 10 veces la densidad computacional (en comparación con Zynq Ultrascale) y una mayor adaptabilidad a las cambiantes cargas de trabajo de IA. Asociado con esto hay una validación adicional con soporte para varios estándares de seguridad en muchas ramas de la industria.

    Durante nuestra reunión informativa con Xilinx, hubo un comentario en particular que me llamó la atención dada la demanda mundial actual de semiconductores. Todo se reduce a una diapositiva en la que Xilinx comparó sus propias soluciones automotrices actuales para la conducción de Nivel 3 con su nueva solución.

    En esta situación, la solución actual utiliza tres procesadores con un total de 1259 mm2 de silicio y también memoria para cada procesador, etc. La nueva solución Versal AI Edge reemplaza los tres FPGA de Zynq, reduce 3 procesadores a 1 y se reduce a 529 mm2 de silicio para el mismo rendimiento, pero también con cuatro veces más potencia de cálculo. Incluso si un fabricante de automóviles se ha duplicado por motivos de redundancia, la nueva solución sigue ocupando menos espacio para herramientas que la anterior.

    Esta será una característica clave de las soluciones de procesador en el futuro: la cantidad de silicio que se necesita para poner una plataforma en funcionamiento. Menos silicio generalmente significa menos costo y menos estrés en la cadena de suministro de semiconductores, por lo que se pueden procesar más unidades en un período de tiempo determinado. La compensación es que es posible que grandes cantidades de silicio no funcionen tan bien, o que puede que no sea la configuración óptima de los nodos de proceso para el rendimiento (y los costos relacionados).

    Sin embargo, como es común en la tierra de las FPGA (o ACAP), los anuncios se hacen antes y el progreso es un poco más lento. El anuncio de hoy de Xilinx solo corresponde al hecho de que la documentación está disponible hoy, con silicio de muestra disponible en la primera mitad de 2022. Se lanzará un kit completo de prueba y evaluación en la segunda mitad de 2022 La plataforma puede comenzar a crear prototipos y migrar hoy con el kit de evaluación Versal AI ACAP VCK190.

    Consulte la siguiente diapositiva para conocer las especificaciones completas de los procesadores AI Edge. El nuevo acelerador SRAM está en los primeros cuatro procesadores, mientras que AIE-ML está incluido en todas las partes de la serie 2000. Xilinx ha declarado que todos los procesadores AI Edge se basan en el proceso N7 + de TSMC.

    Lectura relacionada

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir