2000 resultados de la suite, nuevas medidas de rendimiento

Había un gran deseo de contar con un conjunto de puntos de referencia de aprendizaje automático estándar de la industria, similares a los puntos de referencia de SPEC para CPU, para comparar soluciones relativas. Durante los últimos dos años, MLCommons, un consorcio de ingeniería abierto, ha discutido y divulgado sus puntos de referencia MLPerf para capacitación y conclusiones. Los principales miembros del consorcio han publicado cifras de referencia a medida que se perfecciona el conjunto de pruebas. Hoy vemos el lanzamiento completo de MLPerf Inference v1.0 junto con ~ 2000 resultados en la base de datos. Además de esta introducción, también se presentará un nuevo método de medición del rendimiento MLPerf, que se puede utilizar para proporcionar metadatos adicionales sobre los resultados de estas pruebas.

Todos los hallazgos de hoy se centran en la inferencia: la capacidad de una red capacitada para procesar datos invisibles entrantes. Las pruebas se basan en una serie de áreas y modelos de aprendizaje automático que intentan representar el mercado de ML más amplio, al igual que SPEC2017 busca capturar cargas de trabajo de CPU comunes. Para MLPerf Inference, esto incluye:

  • Clasificación de imágenes en Resnet50-v1.5
  • Reconocimiento de objetos con SSD-ResNet34
  • Segmentación de imágenes médicas con 3D UNET
  • Conversión de voz a texto con RNNT
  • Procesamiento de voz con BERT
  • Motores recomendados con DLRM

Los resultados se pueden enviar en varias categorías, como: B. Centro de datos, Edge, Mobile o Tiny. Para Datacenter o Edge, también se pueden enviar en la categoría "cerrada" (manzanas con manzanas con el mismo marco de referencia) o en la categoría "abierta" (todo es posible, optimización superior). Las métricas entregadas dependen de un solo flujo, múltiples flujos, respuesta del servidor o flujo de datos fuera de línea. Para aquellos que siguen el progreso de MLPerf, el conjunto de puntos de referencia es el mismo que en la versión 0.7, excepto que ahora todas las DRAM deben ser ECC y el estado estable se mide con una ejecución de al menos 10 minutos. Los resultados de la ejecución deben declararse para los tipos de datos utilizados (int8, fp16, bf16, fp32). Los puntos de referencia se pueden ejecutar en CPU, GPU, FPGA o silicio AI dedicado.

Qualcomm A100

Las empresas que han presentado resultados a MLPerf hasta ahora son una combinación de proveedores, socios OEM y miembros de MLCommons como Alibaba, Dell, Gigabyte, HPE, Inspur, Intel, Lenovo, NVIDIA, Qualcomm, Supermicro y Xilinx. La mayoría de estos jugadores tienen grandes sistemas de múltiples sockets y diseños de múltiples GPU dependiendo del mercado que quieran promover con los números de ganancias. Por ejemplo, Qualcomm tiene una puntuación de sistema en la categoría Centro de datos con dos EPYC y 5 de sus tarjetas Cloud AI 100, pero también ha enviado datos a la categoría Edge utilizando un kit de desarrollo de IA con un Snapdragon 865 y una versión de su Cloud. Hardware de IA.


Qualcomms Cloud AI 100

El mayor remitente de este lanzamiento, Krai, ha desarrollado un conjunto de pruebas automatizado para MLPerf Inference v1.0 y ha ejecutado el conjunto de pruebas comparativas en una gama de dispositivos de borde de bajo costo como Raspberry Pi, Jetson y RockChip de NVIDIA una aceleración de GPU. Como resultado, Krai ofrece más de la mitad de todos los resultados (más de 1000) en el tramo de datos actual. Compare eso con Centaur, que ha proporcionado un puñado de puntos de datos para su próximo coprocesador CHA AI.

Dado que no todos los sistemas tienen que ejecutar todas las pruebas, no es necesario especificar un número de referencia combinado. Sin embargo, si tomamos uno de los puntos de datos, podemos ver el alcance de los resultados presentados hasta ahora.

Un conjunto de datos fuera de línea se ejecuta en ResNet50 con una precisión del 99%:

  • La plataforma Cloud Sinian de Alibaba (dos Xeon 8269CY + 8x A100) logró 1.077.800 muestras por segundo en INT8
  • Krais Raspberry Pi 4 (1x Cortex A72) logró 1,99 muestras por segundo en INT8

Obviamente, cierto hardware es más adecuado para el procesamiento de voz o el reconocimiento de objetos, y todos los puntos de datos se pueden ver en las páginas de resultados de MLCommon.

Rendimiento de inferencia MLPerf

Un nuevo ángulo para la v1.0 son los metadatos para la medición del rendimiento. En cooperación con SPEC, MLPerf ha adoptado la interfaz de medición de rendimiento SPEC PTDaemon estándar de la industria como un complemento de datos opcional para cada envío. Esto no es solo un nivel de chip, sino una métrica a nivel de sistema. Esto significa que los controladores adicionales, la memoria, el almacenamiento, la fuente de alimentación y las eficiencias contenidas en ellos se tienen en cuenta para la medición de los datos transmitidos.

MLPerf ofrece el ejemplo de un servidor de gigabytes con 5 tarjetas Qualcomm Cloud AI 100 con un promedio de 598 W durante una prueba fuera de línea para 1777,9 consultas por segundo. Los remitentes pueden proporcionar datos de rendimiento adicionales en los detalles del envío, como el rendimiento del procesador; sin embargo, solo el rendimiento a nivel del sistema será parte del proceso de envío oficial.

Alrededor de 800 de los puntos de datos enviados en la lista de hoy contienen datos de rendimiento. Una vez más, la mayoría de ellos de la región de Krai.

Los resultados completos se pueden encontrar en el sitio web de MLCommons.

Lectura relacionada

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir