DeepSeek est curieux

DeepSeek se concentre sur la recherche et le développement de nouveaux modèles, plutôt que d'apparaître beaucoup dans les médias. Photo : SCMP .

En collaboration avec des chercheurs de l'Université Tsinghua, DeepSeek a introduit une nouvelle méthode pour améliorer les capacités d'inférence des grands modèles linguistiques (LLM). La méthode, publiée dans un article de recherche publié le 4 avril, aide les LLM à produire des résultats meilleurs et plus rapides pour les requêtes courantes.

Cette technique est une combinaison de deux méthodes précédentes réussies de DeepSeek. L'une est la modélisation générative des récompenses (GRM), qui permet au modèle d'IA de s'auto-évaluer et d'affiner ses réponses en fonction des résultats précédents, et l'autre est le réglage de la critique auto-fondée.

Les deux méthodes s’appuient sur l’élément « auto-apprentissage » de l’IA, réduisant la dépendance à l’égard du retour d’information ou des conseils humains directs, mais avec le désir de produire des résultats plus proches des attentes humaines.

Selon les chercheurs, bien qu’il s’agisse d’une nouvelle méthode, DeepSeek-GRM atteint toujours des performances exceptionnelles et rivalise avec les modèles d’IA les plus célèbres et les plus efficaces d’aujourd’hui. DeepSeek prévoit d'ouvrir le code source de ses modèles GRM, mais n'a pas encore donné de calendrier précis.

Après avoir créé un buzz mondial avec son modèle de plate-forme V3 et son modèle d'inférence R1, DeepSeek a publié cet article académique sur le référentiel scientifique en ligne arXiv, laissant de nombreuses personnes curieuses quant à la prochaine étape de l'entreprise.

Reuters prédit que DeepSeek-R2, le successeur du R1, pourrait être lancé en avril, car les modèles précédents n'ont pas encore refroidi. Auparavant, DeepSeek-R1 avait choqué le monde technologique mondial grâce à ses performances exceptionnelles par rapport au coût, suffisamment compétitives avec les principaux modèles actuels.

DeepSeek reste silencieux sur la spéculation. Cependant, selon des informations locales, un compte de service client de DeepSeek a nié les informations ci-dessus dans un groupe de discussion avec des clients d'entreprise.

Fondée à Hangzhou en 2023 par l'entrepreneur Liang Wenfeng, DeepSeek a rapidement attiré l'attention mondiale au cours des derniers mois. Mais au lieu de capitaliser sur la renommée publique, l’entreprise a concentré ses ressources sur la recherche et le développement.

Auparavant, DeepSeek a mis à niveau le modèle V3, en lançant la version DeepSeek-V3-0324. Selon l'annonce, cette mise à jour comprend des capacités d'inférence améliorées, des optimisations pour le développement Web front-end et une écriture chinoise améliorée.

En février, la start-up a également ouvert le code source de cinq référentiels, affirmant ainsi son engagement à « progresser en toute transparence ». Ce mois-ci également, la société a publié un article technique sur « l’attention native clairsemée », qui améliore les performances des LLM dans le traitement de quantités massives de données.

DeepSeek est considéré comme un symbole de la résilience de l'industrie chinoise de l'IA, dans un contexte où les États-Unis tentent de freiner le développement technologique du pays.

Source : https://znews.vn/deepseek-gay-to-mo-post1543900.html