DeepSeek privilégie la recherche et le développement de nouveaux modèles plutôt qu'une présence médiatique fréquente. Photo : SCMP . |
En collaboration avec des chercheurs de l'université Tsinghua, DeepSeek a mis au point une nouvelle méthode pour améliorer les capacités d'inférence des grands modèles de langage (LLM). Cette méthode, présentée dans un article de recherche publié le 4 avril au soir, permet aux LLM de fournir des résultats plus précis et plus rapides pour les requêtes courantes.
Cette technique combine deux méthodes ayant déjà fait leurs preuves chez DeepSeek. La première est la modélisation générative des récompenses (GRM), qui permet au modèle d'IA de s'auto-évaluer et d'affiner ses réponses en fonction des résultats précédents, et la seconde est le réglage critique basé sur des principes d'auto-évaluation.
Les deux méthodes s'appuient sur l'aspect « auto-apprentissage » de l'IA, réduisant ainsi la dépendance aux retours ou aux conseils humains directs, mais dans le but de fournir des résultats plus conformes aux attentes humaines.
D'après les chercheurs, malgré sa nouveauté, DeepSeek-GRM obtient des résultats exceptionnels et rivalise avec les modèles d'IA les plus performants et reconnus. DeepSeek prévoit de rendre ses modèles GRM open source, mais aucun calendrier précis n'a été communiqué.
Après avoir eu un impact mondial avec son modèle de plateforme V3 et son modèle d'inférence R1, DeepSeek a publié cet article académique sur l'archive scientifique en ligne arXiv, suscitant la curiosité quant à la prochaine étape de l'entreprise.
Reuters prévoit que le DeepSeek-R2, successeur du R1, pourrait être lancé en avril, compte tenu de la popularité persistante de son prédécesseur. Le DeepSeek-R1 avait fait sensation dans le monde de la technologie grâce à ses performances exceptionnelles par rapport à son prix, le rendant compétitif face aux modèles leaders actuels.
DeepSeek n'a fait aucun commentaire concernant ces rumeurs. Cependant, selon des sources locales, un compte du service client de DeepSeek a démenti l'information lors d'une conversation de groupe avec des clients professionnels.
Fondée à Hangzhou en 2023 par l'entrepreneur Liang Wenfeng, DeepSeek a rapidement attiré l'attention du monde entier ces derniers mois. Mais au lieu de capitaliser sur sa notoriété, l'entreprise concentre ses ressources sur la recherche et le développement.
Auparavant, DeepSeek avait mis à jour son modèle V3, en publiant la version DeepSeek-V3-0324. Selon l'annonce, cette mise à jour comprend des capacités de raisonnement améliorées, une optimisation pour le développement d'interfaces utilisateur Web front-end et des compétences d'écriture chinoise améliorées.
En février, la startup a également rendu open source cinq dépôts de code, réaffirmant son engagement en faveur d'un « progrès en toute transparence ». Le même mois, la société a annoncé une étude technique sur « l'attention clairsemée native », qui contribue à améliorer les performances des LLM dans le traitement de volumes massifs de données.
DeepSeek est perçu comme un symbole du dynamisme de l'industrie chinoise de l'IA, à un moment où les États-Unis tentent de freiner le développement technologique du pays.
Source : https://znews.vn/deepseek-gay-to-mo-post1543900.html






Comment (0)