Se dice que el modelo de IA (inteligencia artificial) s1, creado por investigadores estadounidenses, tiene un coste operativo de tan solo 50 dólares, pero ofrece capacidades de razonamiento equivalentes a las del modelo o1 de OpenAI, mucho más caro. La aparición de s1 se produce tras el impresionante éxito de DeepSeek, que ha causado sensación en Silicon Valley últimamente.
La guerra de la «IA barata» se intensifica desde la aparición de DeepSeek
El equipo ha publicado el código fuente de s1 en GitHub, junto con el código y los datos utilizados para construir el modelo. Un artículo publicado la semana pasada explica el proceso de desarrollo del modelo, destacando las ingeniosas técnicas empleadas. En lugar de empezar desde cero con un nuevo modelo de razonamiento, el equipo utilizó un modelo de lenguaje existente y realizó un proceso de perfeccionamiento extrayendo las capacidades de razonamiento del modelo experimental Flash Thinking de Gemini 2.0 de Google.
Los costos operativos de la IA son 'menos de 50 dólares'
El entrenamiento del modelo s1 tardó solo 30 minutos, utilizando 16 GPU Nvidia H100. Aunque cada GPU cuesta alrededor de 25 000 dólares, el coste de alquilar el proceso fue inferior a 50 dólares gracias a los servicios de computación en la nube. En particular, el equipo descubrió un truco útil: indicar al modelo que "esperara" antes de dar una respuesta final, lo que mejoró su razonamiento y generó mejores soluciones.
Si bien el s1 ha logrado resultados notables a bajo costo, existen preocupaciones sobre la escalabilidad del modelo. Usar el modelo de Google como modelo de referencia plantea dudas sobre la capacidad del s1 para competir con los principales modelos de IA actuales. Es probable que Google siga de cerca la situación, especialmente a la luz del litigio en curso entre OpenAI y DeepSeek.
[anuncio_2]
Fuente: https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm
Kommentar (0)