De nouvelles recherches révèlent le secret du succès de DeepSeek

Le modèle d'intelligence artificielle R1 de la startup chinoise DeepSeek – qui a secoué le marché boursier américain lors de son lancement en janvier – a fait l'objet de la première étude évaluée par des pairs, démontrant comment il a développé un puissant LLM pour seulement 300 000 dollars environ.

Le R1 est conçu pour exceller dans les tâches de raisonnement telles que les mathématiques et la programmation, ce qui en fait un concurrent à bas coût des outils développés par les géants technologiques américains.

Il s'agit d'un modèle « à poids libre », téléchargeable gratuitement et actuellement le modèle le plus populaire sur la plateforme Hugging Face, avec plus de 10,9 millions de téléchargements.

L'étude publiée dans Nature, une mise à jour d'un article paru en janvier, a révélé pour la première fois que l'entraînement de R1 n'avait coûté que 294 000 $, en plus des quelque 6 millions de dollars dépensés pour la construction du modèle de base.

Ce chiffre est bien inférieur aux dizaines de millions de dollars que les concurrents auraient dépensés.

DeepSeek a indiqué que R1 avait été entraîné principalement à l'aide de puces Nvidia H800, dont l'exportation vers la Chine est interdite par les États-Unis depuis 2023.

L'innovation majeure de R1 réside dans son utilisation de l'apprentissage par renforcement pur, où le modèle est entraîné par essais et erreurs et récompensé pour les réponses correctes, plutôt que d'apprendre à partir d'exemples choisis par des humains. Il évalue également ses propres performances à l'aide d'estimations internes, une technique appelée « optimisation relative de la politique de groupe », ce qui contribue à les améliorer.

« Le processus rigoureux d’évaluation par les pairs contribue à valider la valeur et la fiabilité du modèle », explique le chercheur Huan Sun (Université d’État de l’Ohio). « Les autres entreprises devraient faire de même. »

Lewis Tunstall, ingénieur en apprentissage automatique chez Hugging Face, a déclaré qu'il s'agissait d'un précédent important car la transparence dans le développement de l'IA contribue à évaluer les risques avec plus de précision.

DeepSeek affirme que R1 n'a pas été entraîné à l'aide de données provenant des modèles d'OpenAI, tout en admettant que le modèle sous-jacent a été entraîné sur des données Web, qui pourraient inclure du contenu généré par l'IA.

Les experts affirment que, même s'il est difficile de le vérifier de manière absolue, les données actuelles suggèrent qu'une amélioration pure suffit à atteindre des performances élevées.

Lors du test ScienceAgentBench, R1 n'a pas obtenu la meilleure précision, mais a présenté un bon compromis entre efficacité et coût. Les chercheurs envisagent désormais d'appliquer la méthode de DeepSeek pour améliorer les capacités de raisonnement des LLM existants et de l'étendre à des domaines autres que les mathématiques et la programmation.

Selon M. Tunstall, R1 a « lancé une révolution » dans le développement de l'intelligence artificielle.

(TTXVN/Vietnam+)

Source : https://www.vietnamplus.vn/nghien-cuu-moi-tiet-lo-bi-quyet-thanh-cong-cua-deepseek-post1062474.vnp