Investigadores de la Universidad de Stanford y Washington gastaron sólo 50 dólares para crear un modelo de inteligencia artificial con razonamiento.
Las pruebas matemáticas y de programación muestran que S1 (el nombre del modelo) funciona a la par de los modelos de inteligencia artificial de razonamiento de última generación, como o1 de OpenAI y R1 de DeepSeek.
Cabe destacar que S1 es un modelo de código abierto, disponible en el repositorio de GitHub para que cualquiera pueda acceder a él.
El equipo de desarrollo compartió que comenzaron con un modelo básico disponible y luego lo perfeccionaron a través de la “destilación”, el proceso de extraer la capacidad de “razonamiento” de otro modelo de IA entrenándolo con sus respuestas.
En concreto, S1 es un destilado del modelo experimental Gemini 2.0 Flash Thinking de Google. El proceso de destilación es similar al que hicieron los científicos de la Universidad de Berkeley para crear un modelo que cuesta alrededor de 450 dólares.
Los investigadores detrás de s1 han encontrado la forma más sencilla de lograr un sólido rendimiento de razonamiento y "escalar durante las pruebas", es decir, permitir que el modelo de IA piense más antes de responder una pregunta.
Este es uno de los avances del o1 de OpenAI, que DeepSeek y otros laboratorios de IA han intentado replicar a través de diversas técnicas.
El artículo S1 muestra que los modelos de razonamiento se pueden destilar con un conjunto de datos bastante pequeño a través de un proceso llamado ajuste fino supervisado (SFT), en el que se le indica explícitamente a un modelo de IA que imite ciertos comportamientos en el conjunto de datos.
SFT es generalmente más barato que el enfoque de aprendizaje de refuerzo a gran escala que DeepSeek utilizó para entrenar el modelo R1.
Google ofrece acceso gratuito a Gemini 2.0 Flash Thinking Experimental, aunque con un límite de frecuencia diario, a través de la plataforma Google AI Studio.
Sin embargo, los términos de Google prohíben la ingeniería inversa de sus modelos para desarrollar servicios que compitan con los productos de inteligencia artificial de la compañía.
El S1 se basa en un pequeño modelo de IA disponible en el laboratorio de IA Qwen, propiedad de Alibaba, que se puede descargar de forma gratuita. Para entrenar a S1, los investigadores crearon un conjunto de datos de 1.000 preguntas cuidadosamente seleccionadas, junto con las respuestas y el proceso de “pensamiento” detrás de cada respuesta del Gemini 2.0 Flash Thinking Experimental de Google.
Este proceso de entrenamiento tomó menos de 30 minutos con 16 GPU Nvidia H100, y aun así produjo resultados sólidos en varios puntos de referencia de IA. Niklas Muennighoff, investigador de Stanford, dijo que el costo de alquilar la potencia informática necesaria era de sólo 20 dólares.
Los investigadores usaron un truco para lograr que S1 verificara su trabajo y extendiera su “tiempo de pensamiento”, como pedirle al modelo que esperara agregando la palabra “esperar” a su proceso de razonamiento, lo que ayudó al modelo a llegar a una respuesta más precisa.
Para 2025, Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en infraestructura de IA, parte de la cual se utilizará para entrenar modelos de IA de próxima generación. Es posible que todavía se necesite este nivel de inversión para impulsar la innovación en IA.
La destilación ha demostrado ser una buena manera de replicar las capacidades del modelo de IA a bajo costo, pero no crea nuevos modelos de IA que sean superiores a los que existen hoy.
(Según TechCrunch)
[anuncio_2]
Fuente: https://vietnamnet.vn/he-lo-bi-mat-tao-ra-mo-hinh-ai-ly-luan-sieu-re-chua-den-2-trieu-dong-2369052.html
Kommentar (0)