Las pruebas matemáticas y de programación muestran que S1 (el nombre del modelo) funciona a la par de los modelos de inteligencia artificial de razonamiento de última generación, como o1 de OpenAI y R1 de DeepSeek.

Cabe destacar que S1 es un modelo de código abierto, disponible en el repositorio de GitHub para que cualquiera pueda acceder a él.

El equipo de desarrollo compartió que comenzaron con un modelo básico disponible y luego lo perfeccionaron a través de la “destilación”, el proceso de extraer la capacidad de “razonamiento” de otro modelo de IA mediante el entrenamiento de sus respuestas.

En concreto, S1 se deriva del modelo experimental Gemini 2.0 Flash Thinking de Google. El proceso de destilación es similar al que utilizaron los científicos de la Universidad de Berkeley para crear el modelo, con un coste aproximado de 450 USD (unos 11,3 millones de VND).

GettyImages 1168836247 1.jpg.jpeg
DeepSeek abre la carrera para desarrollar IA económica. Foto: TechCrunch

Los investigadores detrás de s1 han encontrado la forma más sencilla de lograr un sólido rendimiento de razonamiento y “escalar durante las pruebas”, es decir, permitir que el modelo de IA piense más antes de responder una pregunta.

Este es uno de los avances del o1 de OpenAI, que DeepSeek y otros laboratorios de IA han intentado replicar a través de diversas técnicas.

El artículo S1 muestra que los modelos de razonamiento pueden refinarse con un conjunto de datos bastante pequeño a través de un proceso llamado ajuste fino supervisado (SFT), en el que se le indica explícitamente a un modelo de IA que imite ciertos comportamientos en el conjunto de datos.

SFT es generalmente más barato que el enfoque de aprendizaje de refuerzo a gran escala que DeepSeek utilizó para entrenar el modelo R1.

Google ofrece acceso gratuito a Gemini 2.0 Flash Thinking Experimental, aunque con un límite de frecuencia diario, a través de la plataforma Google AI Studio.

Sin embargo, los términos de Google prohíben la ingeniería inversa de sus modelos para desarrollar servicios que compitan con los productos de inteligencia artificial de la compañía.

S1 se basa en un pequeño modelo de IA disponible para descarga gratuita en el laboratorio de IA Qwen, propiedad de Alibaba. Para entrenar a S1, los investigadores crearon un conjunto de datos de 1000 preguntas cuidadosamente seleccionadas, junto con las respuestas y el proceso de pensamiento detrás de cada una, a partir del experimento Flash Thinking Experimental Gemini 2.0 de Google.

El proceso de entrenamiento tardó menos de 30 minutos con 16 GPU Nvidia H100, y aun así produjo resultados excelentes en varias métricas de IA. El coste de alquilar la potencia de procesamiento necesaria fue de tan solo unos 20 dólares, según Niklas Muennighoff, investigador de Stanford.

Los investigadores usaron un truco para lograr que S1 verificara su trabajo y extendiera su “tiempo de pensamiento”, como pedirle al modelo que esperara agregando la palabra “esperar” a su proceso de razonamiento, lo que ayudó al modelo a llegar a una respuesta más precisa.

Para 2025, Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en infraestructura de IA, parte de los cuales se utilizarán para entrenar modelos de IA de próxima generación. Ese nivel de inversión podría seguir siendo necesario para impulsar la innovación en IA.

La destilación ha demostrado ser una buena manera de replicar las capacidades del modelo de IA a bajo costo, pero no crea nuevos modelos de IA que sean superiores a los que existen hoy.

(Según TechCrunch)

Google lanzó oficialmente Gemini 2.0 para competir con la IA china Google acaba de lanzar oficialmente el chatbot de próxima generación, Gemini 2.0 con muchas versiones y actualizaciones.