DeepSeek dévoile sa méthode de création de modèles d'IA à bas coût. Photo : Bloomberg . |
Dans un rapport de recherche publié le 15 mai, DeepSeek a partagé pour la première fois des détails sur la façon dont elle a construit l'un des systèmes d'IA open-source les plus puissants au monde à un coût bien inférieur à celui de ses concurrents.
L'étude, intitulée « Analyse de DeepSeek-V3 : Défis de mise à l'échelle et réflexions sur le matériel pour les architectures d'IA », est co-écrite avec le fondateur Liang Wenfeng. DeepSeek attribue son succès à la conception parallèle du matériel et du logiciel, une approche qui la distingue de nombreuses entreprises qui privilégient encore l'optimisation du logiciel de manière indépendante.
« DeepSeek-V3, entraîné sur 2 048 GPU Nvidia H800, a démontré comment la conception parallèle peut relever efficacement les défis, permettant un entraînement et une inférence performants à grande échelle », a écrit l’équipe de recherche dans son rapport. DeepSeek et le fonds spéculatif High-Flyer avaient constitué des stocks de puces H800 avant que les États-Unis n’interdisent leur exportation vers la Chine à partir de 2023.
Selon l'article, l'équipe de recherche de DeepSeek était parfaitement consciente des limitations matérielles et des coûts exorbitants de l'entraînement des grands modèles de langage (LLM), la technologie sous-jacente aux chatbots comme ChatGPT d'OpenAI. Par conséquent, elle a mis en œuvre une série d'optimisations techniques pour accroître les performances de la mémoire, améliorer la communication entre les puces et renforcer l'efficacité globale de l'infrastructure d'IA.
Par ailleurs, DeepSeek met l'accent sur le rôle de l'architecture de modèle expert mixte (MoE). Il s'agit d'une méthode d'apprentissage automatique qui divise le modèle d'IA en sous-réseaux, chacun traitant une partie distincte des données d'entrée et collaborant pour optimiser les résultats.
L'apprentissage par l'expérience (MoE) permet de réduire les coûts de formation et d'accélérer le raisonnement. Cette méthode est désormais largement adoptée dans l'industrie technologique chinoise, notamment par le modèle Qwen3 d'Alibaba.
DeepSeek s'est fait connaître en lançant son modèle de base V3 en décembre 2024 et son modèle de raisonnement R1 en janvier. Ces produits ont provoqué un véritable séisme sur le marché mondial, contribuant à une chute généralisée des cours des actions des entreprises technologiques liées à l'IA.
Bien que DeepSeek n'ait dévoilé aucun nouveau projet récemment, l'entreprise a su maintenir l'intérêt de la communauté grâce à des publications régulières. Fin mars, elle a déployé une mise à jour mineure de DeepSeek-V3 et, fin avril, elle a discrètement lancé le système Prover-V2 pour le traitement des preuves mathématiques.
Source : https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html






Comment (0)