Le modèle d'intelligence artificielle s1, créé par des chercheurs américains, aurait un coût d'exploitation de seulement 50 dollars américains, tout en offrant des capacités de raisonnement équivalentes à celles du modèle o1 d'OpenAI, bien plus onéreux. L'apparition de s1 fait suite au succès impressionnant de DeepSeek, qui a suscité un vif intérêt dans la Silicon Valley ces derniers jours.
La guerre de l'« IA bon marché » s'intensifie depuis l'émergence de DeepSeek.
L'équipe a rendu public le code source de s1 sur GitHub, ainsi que le code et les données utilisés pour construire le modèle. Un article publié la semaine dernière explique le processus de développement du modèle et met en lumière les techniques ingénieuses employées. Plutôt que de partir de zéro avec un nouveau modèle de raisonnement, l'équipe a utilisé un modèle de langage existant et l'a affiné en extrayant les capacités de raisonnement du modèle expérimental Gemini 2.0 Flash Thinking de Google.
Les coûts d'exploitation de l'IA sont légèrement inférieurs à 50 dollars.
L'entraînement du modèle s1 n'a pris que 30 minutes, grâce à 16 GPU Nvidia H100. Bien que chaque GPU coûte environ 25 000 $, le coût de location du processus était inférieur à 50 $ grâce aux services de cloud computing. L'équipe a notamment découvert une astuce précieuse : demander au modèle d'« attendre » avant de donner une réponse finale, ce qui a amélioré son raisonnement et permis d'obtenir de meilleures solutions.
Bien que le modèle s1 ait réalisé des progrès significatifs à faible coût, son passage à l'échelle suscite des inquiétudes. L'utilisation du modèle de Google comme « tuteur » soulève des questions quant à sa capacité à rivaliser avec les modèles d'IA les plus performants d'aujourd'hui. Google suivra probablement la situation de près, notamment en raison du litige en cours entre OpenAI et DeepSeek.
Source : https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm






Comment (0)