Le modèle d'IA (intelligence artificielle) s1 créé par des chercheurs américains aurait un coût d'exploitation de seulement 50 USD mais offrirait des capacités de raisonnement équivalentes au modèle o1 beaucoup plus cher d'OpenAI. L'apparition de s1 fait suite au succès impressionnant de DeepSeek, qui a fait sensation dans la Silicon Valley ces derniers jours.
La guerre de l'IA bon marché s'intensifie depuis l'émergence de DeepSeek
L'équipe a rendu public le code source de s1 sur GitHub, ainsi que le code et les données utilisés pour créer le modèle. Un article publié la semaine dernière explique le processus de développement de ce modèle, en soulignant les techniques astucieuses qu’ils ont appliquées. Au lieu de repartir de zéro avec un nouveau modèle de raisonnement, l’équipe a utilisé un modèle de langage existant et a effectué un processus de « réglage fin » en distillant les capacités de raisonnement du modèle expérimental Gemini 2.0 Flash Thinking de Google.
Les coûts d'exploitation de l'IA sont « inférieurs à 50 $ »
La formation du modèle s1 n'a pris que 30 minutes, en utilisant 16 GPU Nvidia H100. Bien que chacun de ces GPU coûte environ 25 000 $, le coût de leur location pour ce processus est inférieur à 50 $ grâce aux services de cloud computing. L’équipe a notamment découvert une astuce utile : demander au modèle d’« attendre » avant de donner une réponse finale, ce qui a amélioré son raisonnement et a abouti à de meilleures solutions.
Bien que le modèle s1 ait permis des avancées significatives à faible coût, des inquiétudes subsistent quant à l’évolutivité de ce modèle. L’utilisation du modèle de Google comme « enseignant » soulève des questions sur la capacité du s1 à rivaliser avec les principaux modèles d’IA actuels. Google surveillera probablement la situation de près, notamment compte tenu du procès en cours entre OpenAI et DeepSeek.
Source : https://thanhnien.vn/my-tao-ra-mo-hinh-ai-sieu-re-hoat-dong-tuong-tu-gpt-o1-185250207182535164.htm
Comment (0)