Le modèle d'IA (intelligence artificielle) s1 créé par des chercheurs américains aurait un coût d'exploitation de seulement 50 dollars américains, mais offrirait des capacités de raisonnement équivalentes à celles du modèle o1 d'OpenAI, bien plus coûteux. L'apparition de s1 fait suite au succès impressionnant de DeepSeek, qui a fait sensation dans la Silicon Valley ces derniers jours.
La guerre de l'IA bon marché s'intensifie depuis l'émergence de DeepSeek
L'équipe a publié le code source de s1 sur GitHub, ainsi que le code et les données utilisés pour construire le modèle. Un article publié la semaine dernière explique le processus de développement du modèle et met en avant les techniques astucieuses employées. Plutôt que de partir de zéro avec un nouveau modèle de raisonnement, l'équipe a utilisé un modèle de langage existant et a procédé à un « affinage » en exploitant les capacités de raisonnement du modèle expérimental Flash Thinking Gemini 2.0 de Google.
Les coûts d'exploitation de l'IA sont légèrement inférieurs à 50 dollars.
L'entraînement du modèle s1 n'a pris que 30 minutes, grâce à 16 GPU Nvidia H100. Bien que chaque GPU coûte environ 25 000 dollars, la location du processus a coûté moins de 50 dollars grâce aux services de cloud computing. L'équipe a notamment découvert une astuce utile : demander au modèle d'« attendre » avant de donner une réponse finale, ce qui a amélioré son raisonnement et permis d'obtenir de meilleures solutions.
Bien que le S1 ait enregistré des gains significatifs à faible coût, son évolutivité suscite des inquiétudes. Utiliser le modèle de Google comme modèle pédagogique soulève des questions quant à sa capacité à concurrencer les principaux modèles d'IA actuels. Google suivra probablement la situation de près, notamment compte tenu du litige en cours entre OpenAI et DeepSeek.
Source : https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm
Comment (0)