Una nueva investigación revela el secreto del éxito de DeepSeek

El modelo de inteligencia artificial R1 de la startup china DeepSeek, que conmocionó al mercado bursátil estadounidense cuando se lanzó en enero, ha sido publicado en el primer estudio revisado por pares, que muestra cómo desarrolló un potente modelo de aprendizaje automático por tan solo unos 300.000 dólares.

El R1 está diseñado para sobresalir en tareas de razonamiento como matemáticas y programación, lo que lo convierte en un rival de bajo costo para las herramientas desarrolladas por los gigantes tecnológicos estadounidenses.

Este es un modelo de “peso abierto”, que se puede descargar gratuitamente y actualmente es el modelo más popular en la plataforma Hugging Face, con más de 10,9 millones de descargas.

El estudio de Nature, una actualización de un manuscrito de enero, reveló por primera vez que entrenar a R1 costó solo 294.000 dólares, además de los aproximadamente 6 millones de dólares gastados en construir el modelo base.

Esta cifra es mucho menor que las decenas de millones de dólares que, según se dice, han gastado los competidores.

DeepSeek afirmó que R1 fue entrenado principalmente utilizando chips Nvidia H800, cuya exportación a China está prohibida por Estados Unidos desde 2023.

El avance de R1 radicó en el uso del «aprendizaje por refuerzo puro», donde el modelo se entrena mediante ensayo y error y se recompensa por las respuestas correctas, en lugar de aprender de ejemplos seleccionados por humanos. Además, evalúa su propio desempeño mediante estimaciones internas, una técnica denominada «optimización relativa de políticas de grupo», que contribuye a mejorar el rendimiento.

“El riguroso proceso de revisión por pares ayuda a validar el valor y la fiabilidad del modelo”, afirma el investigador Huan Sun (Universidad Estatal de Ohio). “Otras empresas deberían hacer lo mismo”.

Lewis Tunstall, ingeniero de aprendizaje automático de Hugging Face, afirmó que este es un precedente importante porque la transparencia en el desarrollo de la IA ayuda a evaluar los riesgos con mayor precisión.

DeepSeek afirma que R1 no se entrenó utilizando datos de los modelos de OpenAI, aunque admite que el modelo subyacente se entrenó con datos web, que podrían incluir contenido generado por IA.

Los expertos afirman que, si bien es difícil verificarlo de forma absoluta, la evidencia actual sugiere que la mejora pura es suficiente para lograr un alto rendimiento.

En la prueba ScienceAgentBench, R1 no obtuvo el mejor resultado en precisión, pero logró un buen equilibrio entre eficiencia y coste. Los investigadores ahora buscan aplicar el método de DeepSeek para mejorar las capacidades de razonamiento de los modelos de aprendizaje automático existentes, así como extenderlo a áreas más allá de las matemáticas y la programación.

Según el Sr. Tunstall, R1 ha “iniciado una revolución” en el desarrollo de la inteligencia artificial.

(TTXVN/Vietnam+)

Fuente: https://www.vietnamplus.vn/nghien-cuu-moi-tiet-lo-bi-quyet-thanh-cong-cua-deepseek-post1062474.vnp