Cerebras Systems abrumada por la demanda de DeepSeek R1
Introducción a Cerebras Systems
Cerebras Systems, una pionera en la computación de inteligencia artificial, ha sido «abrumada» por la demanda de ejecutar el modelo de lenguaje grande DeepSeek R1, según el cofundador y CEO de la empresa, Andrew Feldman. «Estamos pensando en cómo satisfacer la demanda; es grande», dijo Feldman en una entrevista a través de Zoom la semana pasada.
El impacto de DeepSeek en la economía de la inteligencia artificial
DeepSeek R1 es considerado por algunos como un momento crucial para la inteligencia artificial porque el costo de preentrenar el modelo puede ser tan bajo como una décima parte del de los modelos dominantes como OpenAI’s GPT-1, mientras que obtiene resultados tan buenos o mejores. El impacto de DeepSeek en la economía de la inteligencia artificial es significativo, indicó Feldman. Sin embargo, el resultado más profundo es que impulsará sistemas de inteligencia artificial aún más grandes.
La velocidad de Cerebras
- Cerebras se destaca por su velocidad. Según Feldman, ejecutar inferencia en los ordenadores CS-3 de la empresa logra una salida 57 veces más rápida que otros proveedores de servicios de DeepSeek.
- Cerebras también resalta su velocidad en comparación con otros modelos de lenguaje grande. En una demostración de un problema de razonamiento realizado por DeepSeek en Cerebras versus OpenAI’s o1 mini, la máquina de Cerebras termina en un segundo y medio, mientras que o1 tarda 22 segundos en completar la tarea.
- «Esta velocidad no se puede lograr con cualquier número de GPUs«, dijo Feldman, refiriéndose a los chips vendidos para inteligencia artificial por Nvidia, Advanced Micro Devices y Intel.
El desafío de ejecutar DeepSeek
- El desafío para cualquier persona que aloje DeepSeek es que DeepSeek, al igual que otros modelos de razonamiento, como OpenAI’s GPT-1, utiliza mucha más potencia de cómputo cuando produce resultados en tiempo de inferencia, lo que hace que sea más difícil entregar resultados al usuario en un tiempo oportuno.
- «Un modelo GPT básico realiza un paso de inferencia a través de todos los parámetros para cada palabra» de entrada en el prompt, explicó Feldman.
- «Estos modelos de razonamiento, o modelos de cadena de pensamiento, lo hacen muchas veces» por cada palabra, «y por lo tanto utilizan mucha más potencia de cómputo en el tiempo de inferencia».
La respuesta de Cerebras
- Cerebras siguió un procedimiento estándar para las empresas que desean ejecutar la inferencia de DeepSeek: descargar los parámetros neuronales de R1 en Hugging Face, y luego utilizar los parámetros para entrenar un modelo de código abierto más pequeño, en este caso, Meta Platforms’s Llama 70B, para crear una «destilación» de R1.
- «Podimos hacerlo extremadamente rápido, y pudimos producir resultados que son simplemente más rápidos que todos los demás, no solo un poco, sino mucho», dijo Feldman.
Implicaciones del avance de DeepSeek
- El avance de DeepSeek tiene varias implicaciones:
- Es una gran victoria para la inteligencia artificial de código abierto, indicó Feldman, lo que significa modelos de inteligencia artificial que publican sus parámetros neuronales para su descarga.
- Muchos de los avances de un nuevo modelo de inteligencia artificial se pueden replicar cuando los investigadores tienen acceso a los pesos, incluso sin tener acceso al código fuente.
- Los modelos privados, como GPT-4, no divulgan sus pesos.
- «El código abierto está teniendo su momento, sin duda», dijo Feldman. «Este fue el primer modelo de razonamiento de alto nivel de código abierto».
El futuro de la inteligencia artificial
- A medida que se reduzca el costo de cómputo, el mercado se volverá cada vez más grande, dijo Feldman.
- Los mercados públicos han estado equivocados cada vez en el pasado, al asumir que la reducción del costo de cómputo hace que el mercado sea más pequeño, cuando en realidad lo hace más grande.
- Feldman citó el ejemplo de reducir el precio de las computadoras x86, lo que llevó a que se vendieran y se utilizaran más computadoras.
- En la actualidad, señaló, «Tienes 25 computadoras en tu casa. Tienes una en tu bolsillo, tienes una en la que estás trabajando, tu lavavajillas tiene una, tu lavadora tiene una, tus televisores cada uno tienen una».
- No solo habrá más de lo mismo, sino que también se construirán sistemas de inteligencia artificial más grandes para obtener resultados que están más allá del alcance de la inteligencia artificial convencional, un punto que Feldman ha estado haciendo desde la fundación de Cerebras hace casi una década.
- «Cuando eres 50 o 70 veces más rápido que la competencia, puedes hacer cosas que ellos no pueden hacer en absoluto», dijo, refiriéndose a Cerebras’s CS-3 y su chip, el semiconductor más grande del mundo, WSE-3. «En algún momento, las diferencias en grado se convierten en diferencias en tipo».
Conclusión
En resumen, el avance de DeepSeek y la respuesta de Cerebras marcan un momento significativo en la evolución de la inteligencia artificial. La capacidad de Cerebras para ofrecer inferencia más rápida y la reducción del costo de cómputo abrirán caminos para sistemas de inteligencia artificial más grandes y complejos. A medida que la tecnología sigue avanzando, es probable que veamos un impacto aún mayor en la economía y la sociedad en general. La clave para el éxito de Cerebras y otros proveedores de inteligencia artificial radica en su capacidad para equilibrar la velocidad, la precisión y la seguridad, lo que eventualmente conducirá a una adopción más amplia de la inteligencia artificial en diversas industrias.