Se dice que el modelo de IA (inteligencia artificial) s1, creado por investigadores estadounidenses, tiene un costo operativo de tan solo 50 USD, pero ofrece capacidades de razonamiento equivalentes a las del modelo o1 de OpenAI, que es mucho más costoso. La aparición de s1 se produce tras el impresionante éxito de DeepSeek, que ha causado revuelo en Silicon Valley en los últimos días.
La guerra de la "IA barata" se está intensificando desde la aparición de DeepSeek
El equipo ha publicado el código fuente de s1 en GitHub, junto con el código y los datos utilizados para construir el modelo. Un artículo publicado la semana pasada explica el proceso de desarrollo del modelo, destacando las ingeniosas técnicas empleadas. En lugar de empezar desde cero con un nuevo modelo de razonamiento, el equipo utilizó un modelo de lenguaje existente y realizó un proceso de perfeccionamiento extrayendo las capacidades de razonamiento del modelo experimental Flash Thinking de Gemini 2.0 de Google.
Los costos operativos de la IA son de poco menos de 50 dólares
Entrenar el modelo s1 tomó solo 30 minutos, utilizando 16 GPU Nvidia H100. Aunque cada GPU cuesta alrededor de $25,000, el costo de alquilar el proceso fue inferior a $50 gracias a los servicios de computación en la nube. En particular, el equipo descubrió un truco útil: indicarle al modelo que "esperara" antes de dar una respuesta final, lo que mejoró su razonamiento y resultó en mejores soluciones.
Si bien el s1 ha logrado avances significativos a bajo costo, existen preocupaciones sobre su escalabilidad. Usar el modelo de Google como modelo de referencia plantea dudas sobre su capacidad para competir con los principales modelos de IA actuales. Es probable que Google siga de cerca la situación, especialmente dado el litigio en curso entre OpenAI y DeepSeek.
[anuncio_2]
Fuente: https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm
Kommentar (0)