DeepSeek apareció con fuerza en los periódicos y las redes sociales a principios del año de la Serpiente y provocó que el mercado de valores mundial se sacudiera violentamente.

Sin embargo, un informe reciente de la firma de asesoría financiera Bernstein advierte que, a pesar de su impresionante trayectoria, la afirmación de OpenAI de crear un sistema de IA comparable al suyo por solo 5 millones de dólares es inexacta.

Según Bernstein, la declaración de DeepSeek es engañosa y no refleja el panorama general.

“Creemos que DeepSeek no ‘creó OpenAI con 5 millones de dólares’; los modelos son excelentes, pero no creemos que sean mágicos; y el pánico del fin de semana parece exagerado”, se lee en el informe.

Búsqueda profunda de Bloomberg
Los analistas de Bernstein se muestran escépticos ante la afirmación de DeepSeek de haber desarrollado un sistema de IA con tan solo 5 millones de dólares. Foto: Bloomberg

DeepSeek desarrolla dos modelos principales de IA: DeepSeek-V3 y DeepSeek R1. El modelo de lenguaje grande V3 aprovecha la arquitectura MOE, combinando modelos más pequeños para lograr un alto rendimiento con un menor consumo de recursos informáticos que los modelos tradicionales.

Por otro lado, el modelo V3 tiene 671 mil millones de parámetros, con 37 mil millones de parámetros activos en un momento dado, incorporando innovaciones como MHLA para reducir el uso de memoria y utilizando FP8 para una mayor eficiencia.

El entrenamiento del modelo V3 requirió un clúster de 2048 GPU Nvidia H800 durante dos meses, lo que equivale a 5,5 millones de horas de GPU. Si bien algunas estimaciones sitúan el coste del entrenamiento en torno a los 5 millones de dólares, el informe de Bernstein enfatiza que la cifra solo se refiere a los recursos informáticos y no considera los importantes costes asociados a la investigación, las pruebas y otros costes de desarrollo.

El modelo DeepSeek R1 se basa en V3 mediante el uso de aprendizaje de refuerzo (RL) y otras técnicas para garantizar la inferencia.

El modelo R1 puede competir con los modelos de OpenAI en tareas de razonamiento. Sin embargo, Bernstein señala que el desarrollo de R1 requirió recursos considerables, aunque esto no se detalla en el informe de DeepSeek.

Al comentar sobre DeepSeek, Bernstein destacó la calidad de los modelos. Por ejemplo, el modelo V3 funciona igual o mejor que otros modelos de lenguajes importantes en lenguajes, programación y matemáticas, y requiere menos recursos.

El proceso de preentrenamiento V3 requirió solo 2,7 millones de horas de GPU, o el 9% de los recursos computacionales de algunos otros modelos líderes.

Si bien el progreso de DeepSeek es notable, concluye Bernstein, conviene desconfiar de las afirmaciones exageradas. La idea de crear un competidor de OpenAI con tan solo 5 millones de dólares parece desacertada.

(Según el Times of India)