Obtenga su escala de obleas en una sola instancia

Hasta la fecha, la mayor parte del nuevo hardware de IA que ha llegado al mercado ha sido una inversión "necesaria". Cualquier empresa que busque tomar el camino del uso de hardware de IA especializado necesita obtener un sistema de prueba, ver qué tan fácil es migrar su flujo de trabajo y luego calcular el costo / mano de obra / futuro para ese camino si es factible. La mayoría de las nuevas empresas de inteligencia artificial están desbordadas de fondos de capital de riesgo por los que están dispuestos a hacer el trabajo preliminar con la esperanza de eventualmente ganar un gran cliente para hacer que este negocio sea rentable. Una respuesta simple sería ofrecer el hardware en la nube, pero un proveedor de servicios en la nube (CSP) tarda mucho tiempo en morder y ofrecer este hardware como una opción a sus clientes. El anuncio de hoy entre Cerebras y Cirrascale es que, como CSP, Cirrascale comenzará a ofrecer instancias a escala de obleas basadas en el WSE2 de Cerebras.

Cerebrum WSE2 y CS-2

El Cerebras Wafer Scale Engine 2 es un solo chip de IA del tamaño de una oblea. Utilizando TSMC N7 y una serie de tecnologías patentadas para la conectividad y el embalaje de retícula cruzada, una sola se convierte en 46225 mm2 Chip tiene más de 800.000 núcleos y 2,6 billones de transistores. Con 40 GB de SRAM a bordo, WSE2 está diseñado para capturar grandes modelos de aprendizaje automático para el entrenamiento sin tener que dividir el entrenamiento en varios nodos. En lugar de utilizar un modelo distribuido de TensorFlow o Pytorch con MPI o sincronización, el objetivo de WSE2 es poner todo el modelo en un solo chip, acelerar la comunicación entre núcleos y hacer que el software sea más fácil de administrar a medida que los modelos escalan rápidamente.

El WSE2 es el corazón de un sistema CS-2, un dispositivo de rack de 15U con un panel frontal de aluminio especialmente mecanizado. La conectividad se realiza a través de 12 puertos de 100 Gigabit Ethernet, y el chip interior utiliza una carcasa personalizada y un sistema de refrigeración por agua con redundancia. Un solo chip tiene una potencia típica de 14 kW, 23 kW de pico, pero en su interior hay fuentes de alimentación de 12 x 4 kW. Los clientes actuales de las unidades CS-2 incluyen laboratorios nacionales, centros de supercomputación, farmacología, biotecnología, el ejército y otras agencias de inteligencia. A miles de millones de dólares cada uno, es un gran bocado a la vez, de ahí el anuncio de hoy.

Índice

    Cerebras x Cirrascale: WSE2 en la nube

    El anuncio de hoy es que Cirrascale, un proveedor de servicios en la nube centrado en nubes GPU para inteligencia artificial y aprendizaje automático, implementará un sistema CS-2 en sus instalaciones de Santa Clara. Se ofrece a los clientes como una instancia de sistema completa, en lugar de un dispositivo particionado como una CPU / GPU, sobre la base de que el tipo de clientes interesados ​​en un CS-2 son clientes que tienen modelos grandes para quienes una porción de un CS- 2 no es suficiente. Andrew Feldman, director ejecutivo de Cerebras, afirmó que los clientes que miran CS-2 saben que su carga de trabajo se escala en tantas GPU que necesitan otra forma de colocar sus modelos en un solo dispositivo.

    Actualmente, se trata de un solo sistema y, en lugar de tener varios usuarios, Cirrascale ofrecerá un sistema por orden de llegada. Por lo general, un solo sistema CS-2 cuesta varios millones, pero los costos de alquiler de la nube de Cirrascale son $ 60,000 por semana o $ 180,000 por mes, con descuentos adicionales si es necesario. El período mínimo de alquiler es de una semana y, si un cliente así lo desea, Cirrascale puede guardar sus datos de instancia localmente para una futura ventana de alquiler.

    El CEO de Cirrascale, PJ Go, afirmó que parte del interés en el sistema proviene de las grandes empresas de servicios financieros que buscan analizar sus bases de datos internas o servicios al cliente, así como la farmacología, y estas empresas tienden a obtener contratos largos cuando les parece adecuado. solución para su flujo de trabajo de ejecución extendido.

    Los interesados ​​en el sistema pueden utilizar el conjunto de herramientas en la nube de Cirrascale, que ya ha integrado la cadena de herramientas y los compiladores de Cerebras. El alquiler de una instancia de CS-2 incluye el conjunto de herramientas completo y un sistema de almacenamiento y computación asociado.

    Pensamientos

    Uno de los problemas de llevar la mayoría del hardware de entrenamiento de IA a la nube es escalarlo. Simplemente no es suficiente alquilar unas pocas docenas de instancias de múltiples chips de IA a la vez y luego dividirlos juntos, ya que podrían terminar en diferentes lados del centro de datos. Cuando este paquete de una docena de instancias se vende como un solo tipo de instancia, debe compensar la carga de trabajo con el escalamiento horizontal. Debido a esto, la capacitación en la nube puede ser difícil y la mayoría de las nuevas empresas de hardware de IA buscan implementaciones locales en lugar de implementaciones en la nube.


    Yo con un WSE-1

    Esto es lo que coloca a Cerebras en una posición única. Wafer Scale Engine es una unidad grande diseñada para grandes tareas de entrenamiento que pueden requerir cientos de GPU y encajar en un solo chip. No hay división de instancias o tiempo compartido para trabajos simples: las empresas que los necesitan generalmente lo necesitan todo, y eso los convierte en una entidad monetizable para la entrega en la nube. Sin embargo, esa entidad monetizable sigue siendo una gran parte, especialmente para cualquiera que busque explorar las capacidades del dispositivo para sus cargas de trabajo. Por ejemplo, $ 180,000 por un mes pagarían esencialmente por un DGX A100 en el sitio. Sin embargo, como señaló Cerebras, el WSE está destinado a usuarios que necesitan escalar más allá de eso sin las complejidades de sincronizar varios chips.

    El único problema que todavía no puedo resolver con este trato es que Cirrascale solo parece estar usando un único sistema CS-2. En nuestra sesión informativa, sonaba como si los clientes potenciales estuvieran en la puerta para probar esto, y puedo imaginar que incluso si todos solo quisieran una semana para probar, algunos no esperarían 8 semanas para llegar a la suya. Dar la vuelta. O alternativamente, si un cliente lo reserva por un mes y lo quiere por un año, nadie más puede usarlo y Cirrascale necesita otro. No estaba claro si Cirrascale había comprado el CS-2 a Cerebras, o si la compañía simplemente está "alquilando" / "repartiendo utilidades" como se usa. Sin embargo, me han dicho que si el dispositivo ofrecido por Cirrascale se suscribe en exceso regularmente, se agregarán más.

    Desde la perspectiva de la empresa, Cerebras se encuentra en una posición saludable. Todavía hay una gran cantidad de fondos de capital riesgo en el banco, han vendido sólidos sistemas WSE de dos dígitos a cuentas corporativas y gubernamentales, y el equipo tiene una hoja de ruta en curso para productos futuros. El equipo parece muy interesado en promover cualquier venta, o al menos aquellas de las que se les permite hablar. De casi todas las nuevas empresas de IA, Cerebras tiene la PVU más notoria de inmediato para el mercado: los chips individuales grandes facilitan las grandes sesiones de capacitación, por lo que será interesante ver cómo le va a la empresa con algunas de las nuevas empresas emergentes de IA que están apuntando alrededor. para abordar el enfoque multichip-as-monolithic. Podría decirse que Cerebras ya ha hecho esto con su nueva tecnología SwarmX / MemoryX, que anunció en los Hot Chips 2021, que escalará sin problemas hasta 192 máquinas CS-2 y un escalado de potencia 1: 1 informado para 100 billones de modelos de parámetros hecho posible. El Dojo de Tesla tiene como objetivo hacer algo similar, pero eso solo se aplica a Tesla, no a nadie más: el mercado de Cerebras vende u ofrece sistemas a través de implementaciones como Cirrascale que, en teoría, todos deberían poder usar.

    Los clientes interesados ​​pueden registrar su interés a partir de hoy, el sistema ya se está ejecutando para los primeros clientes de la nube.

    Lectura relacionada

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir