Vietnam.vn - Nền tảng quảng bá Việt Nam

DeepSeek révèle le secret

DeepSeek révèle pour la première fois comment construire le modèle d'IA open source leader au monde à faible coût, grâce à la conception simultanée de matériel et de logiciel.

ZNewsZNews20/05/2025

DeepSeek révèle comment ils ont construit un modèle d'IA bon marché. Photo : Bloomberg .

Dans un rapport de recherche publié le 15 mai, DeepSeek a partagé pour la première fois des détails sur la façon dont il a construit l'un des systèmes d'IA open source les plus puissants au monde à une fraction du coût de ses concurrents.

L'étude, intitulée « Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures », a été co-écrite par son fondateur Liang Wenfeng. DeepSeek attribue son succès à la conception parallèle de matériel et de logiciels, une démarche qui la distingue de nombreuses entreprises qui se concentrent sur l'optimisation de logiciels isolément.

« DeepSeek-V3, entraîné sur 2 048 GPU Nvidia H800, démontre comment les conceptions parallèles peuvent relever efficacement ces défis, permettant un entraînement et une inférence efficaces à grande échelle », écrit l'équipe dans l'article. DeepSeek et le fonds spéculatif High-Flyer ont fait le plein de puces H800 avant que les États-Unis n'interdisent leur exportation vers la Chine en 2023.

L'équipe DeepSeek, consciente des limitations matérielles et des « coûts exorbitants » de la formation de grands modèles de langage (LLM), la technologie sous-jacente derrière les chatbots comme ChatGPT d'OpenAI, a mis en œuvre une série d'optimisations techniques qui augmentent l'efficacité de la mémoire, améliorent la communication entre les puces et améliorent l'efficacité de l'ensemble de l'infrastructure d'IA, selon le document.

De plus, DeepSeek met l'accent sur le rôle de l'architecture du Modèle d'Expert (MoE). Il s'agit d'une méthode d'apprentissage automatique qui divise un modèle d'IA en sous-réseaux, chacun traitant une partie distincte des données d'entrée et travaillant en collaboration pour optimiser les résultats.

Le MoE réduit les coûts de formation et accélère l'inférence. Cette méthode est désormais largement adoptée dans le secteur technologique chinois, notamment avec le dernier modèle Qwen3 d'Alibaba.

DeepSeek a fait la une des journaux avec le lancement de son modèle de base V3 en décembre 2024 et de son modèle de raisonnement R1 en janvier. Ces produits ont suscité un vif émoi sur les marchés mondiaux, contribuant à une forte baisse des valeurs technologiques liées à l'IA.

Bien que DeepSeek n'ait pas révélé de nouveaux projets ces derniers temps, l'entreprise a maintenu l'intérêt de la communauté en publiant régulièrement des rapports. Fin mars, l'entreprise a publié une mise à jour mineure de DeepSeek-V3, et fin avril, elle a discrètement lancé son système Prover-V2 pour le traitement des preuves mathématiques.

Source : https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html


Comment (0)

No data
No data
Scène magique sur la colline de thé « bol renversé » à Phu Tho
Trois îles de la région centrale sont comparées aux Maldives et attirent les touristes en été.
Admirez la ville côtière scintillante de Gia Lai à Quy Nhon la nuit
Image de champs en terrasses à Phu Tho, en pente douce, lumineux et beaux comme des miroirs avant la saison des plantations
L'usine Z121 est prête pour la soirée finale du feu d'artifice international
Un célèbre magazine de voyage fait l'éloge de la grotte de Son Doong comme étant « la plus magnifique de la planète »
Une grotte mystérieuse attire les touristes occidentaux, comparée à la « grotte de Phong Nha » à Thanh Hoa
Découvrez la beauté poétique de la baie de Vinh Hy
Comment est transformé le thé le plus cher de Hanoi, dont le prix dépasse les 10 millions de VND/kg ?
Goût de la région fluviale

Patrimoine

Chiffre

Entreprise

No videos available

Nouvelles

Système politique

Locale

Produit