Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek révèle le secret

DeepSeek révèle pour la première fois comment construire le modèle d'IA open source leader au monde à faible coût, grâce à la conception simultanée de matériel et de logiciel.

Zing NewsZing News20/05/2025

DeepSeek révèle comment ils ont construit un modèle d'IA bon marché. Photo : Bloomberg .

Dans un rapport de recherche publié le 15 mai, DeepSeek a partagé pour la première fois des détails sur la façon dont il a construit l'un des systèmes d'IA open source les plus puissants au monde à une fraction du coût de ses concurrents.

L'étude, intitulée « Insights into DeepSeek-V3 : Scaling Challenges and Reflections on Hardware for AI Architectures », a été co-écrite par le fondateur Liang Wenfeng. DeepSeek attribue son succès à la conception parallèle de matériel et de logiciels. Il s’agit d’une démarche différente dans un contexte où de nombreuses entreprises se concentrent encore sur l’optimisation des logiciels indépendants.

« DeepSeek-V3, formé sur 2 048 GPU Nvidia H800, a démontré comment la conception parallèle peut relever efficacement ces défis, permettant une formation et une inférence efficaces à grande échelle », a écrit l'équipe dans l'article. DeepSeek et le fonds spéculatif High-Flyer ont fait le plein de puces de la série H800 avant que les États-Unis n'interdisent leur exportation vers la Chine en 2023.

Selon l’article, l’équipe DeepSeek est bien consciente des limitations matérielles ainsi que des « coûts exorbitants » de la formation de grands modèles linguistiques (LLM), la technologie sous-jacente derrière les chatbots comme ChatGPT d’OpenAI. En conséquence, ils ont mis en œuvre une série d’optimisations techniques qui ont augmenté les performances de la mémoire, amélioré la communication entre les puces et amélioré l’efficacité de l’ensemble de l’infrastructure d’IA.

De plus, DeepSeek met l’accent sur le rôle de l’architecture du modèle d’expert (MoE). Il s’agit d’une méthode d’apprentissage automatique qui divise un modèle d’IA en sous-réseaux, chacun traitant une partie distincte des données d’entrée et travaillant en collaboration pour optimiser le résultat.

Le MoE permet de réduire les coûts de formation et d’accélérer l’inférence. Cette méthode a désormais été largement adoptée dans l’industrie technologique chinoise, y compris le dernier modèle Qwen3 d’Alibaba.

DeepSeek a fait la une des journaux lorsqu'il a publié son modèle de base V3 en décembre 2024 et son modèle de raisonnement R1 en janvier. Ces produits ont fait sensation sur les marchés mondiaux, contribuant à une forte baisse des actions technologiques liées à l’IA.

Bien qu'il n'ait révélé aucun autre plan récemment, DeepSeek a maintenu l'intérêt de la communauté en publiant des rapports réguliers. Fin mars, la société a publié une mise à jour mineure de DeepSeek-V3 et fin avril, elle a discrètement lancé le système Prover-V2 pour le traitement des preuves mathématiques.

Source : https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Comment (0)

No data
No data

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit