Desde el CEO de OpenAI, Sam Altman, hasta el científico de Google, Andrew Ng, las mentes de IA más brillantes del mundo aprecian el enfoque de código abierto de DeepSeek después de que la startup china lanzara dos modelos de IA de vanguardia.

La compañía con sede en Hangzhou sorprendió a la industria global de IA con su modelo de razonamiento de código abierto R1.

Lanzado el 20 de enero, el modelo muestra un rendimiento comparable a los modelos de código cerrado de OpenAI (el desarrollador de ChatGPT), pero se dice que los costos de capacitación son mucho menores.

búsqueda profunda WSJ
El chatbot de inteligencia artificial desarrollado por DeepSeek recibe millones de descargas en todo el mundo. Foto: WSJ

DeepSeek V3, el modelo de lenguaje grande fundamental, se lanzó hace unas semanas y su entrenamiento costó solo 5,5 millones de dólares, según DeepSeek.

El anuncio de la compañía planteó preguntas sobre si las empresas tecnológicas estaban gastando demasiado en chips gráficos (GPU) para el entrenamiento de IA, lo que provocó una venta masiva de acciones tecnológicas relacionadas.

La semana pasada, en un “Pregúntame cualquier cosa” en Reddit, Altman argumentó que OpenAI estaba equivocado y necesitaba encontrar un enfoque diferente al código abierto.

La empresa siempre ha adoptado un enfoque cerrado, manteniendo en secreto detalles como los métodos de entrenamiento específicos y los costes energéticos de sus modelos.

“Dicho esto, no todos en OpenAI comparten esta opinión” y “no es nuestra máxima prioridad en este momento”, admitió el CEO de OpenAI.

Andrew Ng, fundador de Google Brain y ex científico jefe de Baidu, dijo que los productos de DeepSeek y sus compatriotas muestran que China está alcanzando rápidamente a Estados Unidos en IA.

“Cuando se lanzó ChatGPT en noviembre de 2022, EE. UU. llevaba una ventaja considerable sobre China en IA generativa… pero, de hecho, esa brecha se ha reducido rápidamente en los últimos dos años”, escribió en X. “Con modelos chinos como Qwen, Kimi, InternVL y DeepSeek, China claramente está acortando distancias, y en áreas como la generación de vídeo , ha habido momentos en los que China ha parecido llevar la delantera”.

El modelo Qwen fue desarrollado por Alibaba, mientras que Kimi e InternVL son productos de la startup Moonshot AI y del Shanghai AI Lab.

Si Estados Unidos continúa bloqueando el código abierto, China dominará esta parte de la cadena de suministro y muchas empresas eventualmente adoptarán modelos que reflejen los valores chinos más que los estadounidenses, dijo Ng.

Varias empresas estadounidenses buscan aplicar el modelo de DeepSeek a sus productos. Por ejemplo, los usuarios del servicio NIM de Nvidia han podido acceder al modelo R1 desde la semana pasada, y Microsoft también admite R1 en su plataforma de nube Azure y GitHub. Amazon permite a los clientes crear aplicaciones utilizando R1 a través de AWS.

Sin embargo, algunos expertos también dicen que no se debe exagerar el éxito de DeepSeek. El científico jefe de inteligencia artificial de Meta, Yann LeCun, dice que la idea de que "China superará a Estados Unidos en inteligencia artificial" debido a DeepSeek es errónea.

Más bien, “los modelos de código abierto están superando a los modelos propietarios”, escribió en Threads.

DeepSeek, una startup surgida del fondo de cobertura High-Flyer de su fundador Liang Wenfeng en mayo de 2023, aún enfrenta escepticismo sobre sus costos reales y sus métodos de entrenamiento de modelos de IA.

Zheng Xiaoqing, profesor de informática de la Universidad de Fudan, señaló que el costo de entrenamiento de DeepSeek V3 no incluye los costos relacionados con las pruebas y la investigación, según el informe técnico de la startup.

El éxito de DeepSeek proviene de la “optimización técnica”, dijo, por lo que no tiene un gran impacto en la adquisición o los envíos de chips.

(Según SCMP)