Grâce aux techniques améliorées issues de la formation IA de DeepSeek, la puce Huawei Ascend a offert des performances exceptionnelles. Photo : Reuters . |
Les chercheurs travaillant sur le grand modèle de langage Pangu (LLM) de Huawei ont annoncé le 4 juin qu'ils avaient amélioré l'approche originale de DeepSeek pour former l'intelligence artificielle (IA) en exploitant le matériel propriétaire de l'entreprise, a rapporté SCMP .
Plus précisément, l'article publié par l'équipe Pangu de Huawei, qui comprend 22 collaborateurs principaux et 56 chercheurs supplémentaires, a introduit le concept de Mixture of Grouped Experts (MoGE), une version améliorée de la technique Mixture of Experts (MoE) qui a joué un rôle clé dans les modèles d'IA rentables de DeepSeek.
Selon l'article, si le MoE offre de faibles coûts d'exécution pour les grands paramètres de modèles et des capacités d'apprentissage avancées, il entraîne aussi souvent des inefficacités. Celles-ci proviennent d'une activation inégale, qui nuit aux performances lors de l'exécution sur plusieurs appareils en parallèle.
Parallèlement, le MoGE est amélioré par une équipe d'experts dans le processus de sélection et équilibre mieux la charge de travail des « experts », selon les chercheurs.
En formation d'IA, le terme « expert » désigne des sous-modèles ou composants spécialisés au sein d'un modèle plus vaste. Chacun de ces modèles est conçu pour gérer des tâches spécifiques ou des types de données distincts. Cela permet au système global de tirer parti de diverses expertises pour améliorer ses performances.
Selon Huawei, le processus d'entraînement se compose de trois phases principales : pré-entraînement, extension à long terme et post-entraînement. L'ensemble du processus comprenait un pré-entraînement sur 13 200 milliards de jetons et une extension à long terme utilisant 8 192 puces Ascend – le processeur d'IA le plus puissant de Huawei, utilisé pour entraîner des modèles d'IA et visant à défier la domination de Nvidia dans la conception de puces haut de gamme.
En testant la nouvelle architecture sur une unité de traitement neuronal Ascend (NPU) spécialement conçue pour accélérer les tâches d'IA, les chercheurs ont découvert que MoGE « permet un meilleur équilibrage de charge des experts et des performances plus efficaces pour la formation et l'inférence des modèles ».
En conséquence, comparé à des modèles tels que DeepSeek-V3, Qwen2.5-72B d'Alibaba et Llama-405B de Meta Platforms, Pangu surpasse la plupart des benchmarks anglais généraux et tous les benchmarks chinois, démontrant des performances supérieures dans la formation à long contexte.
Source : https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html
Comment (0)