Se dice que el modelo de IA (inteligencia artificial) s1, creado por investigadores estadounidenses, tiene un coste operativo de tan solo 50 USD, pero ofrece capacidades de razonamiento equivalentes a las del modelo o1 de OpenAI, que cuesta mucho más. La aparición de s1 se produce tras el impresionante éxito de DeepSeek, que ha causado gran revuelo en Silicon Valley en los últimos días.
La guerra por la "IA barata" se está intensificando desde la aparición de DeepSeek.
El equipo ha publicado el código fuente de s1 en GitHub, junto con el código y los datos utilizados para construir el modelo. Un artículo publicado la semana pasada explica el proceso de desarrollo del modelo, destacando las ingeniosas técnicas empleadas. En lugar de partir de cero con un nuevo modelo de razonamiento, el equipo utilizó un modelo de lenguaje existente y realizó un proceso de ajuste fino, extrayendo las capacidades de razonamiento del modelo experimental Gemini 2.0 Flash Thinking de Google.
Los costes operativos de la IA son ligeramente inferiores a 50 dólares.
El entrenamiento del modelo s1 tomó tan solo 30 minutos, utilizando 16 GPU Nvidia H100. Si bien cada GPU cuesta alrededor de $25,000, el costo del proceso fue inferior a $50 gracias a los servicios de computación en la nube. En particular, el equipo descubrió un truco útil: indicarle al modelo que esperara antes de dar una respuesta final, lo que mejoró su razonamiento y generó mejores soluciones.
Aunque el modelo s1 ha logrado avances significativos a bajo costo, existen dudas sobre su escalabilidad. El uso del modelo de Google como modelo de aprendizaje plantea interrogantes sobre su capacidad para competir con los principales modelos de IA actuales. Es probable que Google siga de cerca la situación, especialmente dada la disputa legal en curso entre OpenAI y DeepSeek.
Fuente: https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm






Kommentar (0)