DeepSeek révèle comment ils ont construit un modèle d'IA bon marché. Photo : Bloomberg . |
Dans un rapport de recherche publié le 15 mai, DeepSeek a partagé pour la première fois des détails sur la façon dont il a construit l'un des systèmes d'IA open source les plus puissants au monde à une fraction du coût de ses concurrents.
L'étude, intitulée « Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures », a été co-écrite par son fondateur Liang Wenfeng. DeepSeek attribue son succès à la conception parallèle de matériel et de logiciels, une démarche qui la distingue de nombreuses entreprises qui se concentrent sur l'optimisation de logiciels isolément.
« DeepSeek-V3, entraîné sur 2 048 GPU Nvidia H800, démontre comment les conceptions parallèles peuvent relever efficacement ces défis, permettant un entraînement et une inférence efficaces à grande échelle », écrit l'équipe dans l'article. DeepSeek et le fonds spéculatif High-Flyer ont fait le plein de puces H800 avant que les États-Unis n'interdisent leur exportation vers la Chine en 2023.
L'équipe DeepSeek, consciente des limitations matérielles et des « coûts exorbitants » de la formation de grands modèles de langage (LLM), la technologie sous-jacente derrière les chatbots comme ChatGPT d'OpenAI, a mis en œuvre une série d'optimisations techniques qui augmentent l'efficacité de la mémoire, améliorent la communication entre les puces et améliorent l'efficacité de l'ensemble de l'infrastructure d'IA, selon le document.
De plus, DeepSeek met l'accent sur le rôle de l'architecture du Modèle d'Expert (MoE). Il s'agit d'une méthode d'apprentissage automatique qui divise un modèle d'IA en sous-réseaux, chacun traitant une partie distincte des données d'entrée et travaillant en collaboration pour optimiser les résultats.
Le MoE réduit les coûts de formation et accélère l'inférence. Cette méthode est désormais largement adoptée dans le secteur technologique chinois, notamment avec le dernier modèle Qwen3 d'Alibaba.
DeepSeek a fait la une des journaux avec le lancement de son modèle de base V3 en décembre 2024 et de son modèle de raisonnement R1 en janvier. Ces produits ont suscité un vif émoi sur les marchés mondiaux, contribuant à une forte baisse des valeurs technologiques liées à l'IA.
Bien que DeepSeek n'ait pas révélé de nouveaux projets ces derniers temps, l'entreprise a maintenu l'intérêt de la communauté en publiant régulièrement des rapports. Fin mars, l'entreprise a publié une mise à jour mineure de DeepSeek-V3, et fin avril, elle a discrètement lancé son système Prover-V2 pour le traitement des preuves mathématiques.
Source : https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
Comment (0)