Dank verbesserter Techniken aus dem KI-Training von DeepSeek hat der Huawei Ascend-Chip eine herausragende Leistung erbracht. Foto: Reuters . |
Forscher, die an Huaweis Pangu Large Language Model (LLM) arbeiten, gaben am 4. Juni bekannt, dass sie DeepSeeks ursprünglichen Ansatz zum Training künstlicher Intelligenz (KI) durch die Nutzung der firmeneigenen Hardware verbessert hätten, berichtete SCMP .
Konkret wurde in dem vom Pangu-Team von Huawei, das aus 22 Kernmitarbeitern und 56 weiteren Forschern besteht, veröffentlichten Papier das Konzept „Mixture of Grouped Experts“ (MoGE) vorgestellt, eine verbesserte Version der Mixture of Experts (MoE)-Technik, die eine Schlüsselrolle in den kostengünstigen KI-Modellen von DeepSeek spielte.
Laut dem Papier bietet MoE zwar niedrige Ausführungskosten für große Modellparameter und erweiterte Lernfunktionen, führt aber häufig auch zu Ineffizienzen. Dies ist auf eine ungleichmäßige Aktivierung zurückzuführen, die die Leistung bei der parallelen Ausführung auf mehreren Geräten beeinträchtigt.
Mittlerweile werde MoGE durch ein Expertenteam im Auswahlprozess verbessert und die Arbeitsbelastung der „Experten“ besser ausgeglichen, so die Forscher.
Beim KI-Training bezieht sich der Begriff „Experte“ auf spezialisierte Teilmodelle oder Komponenten innerhalb eines größeren Modells. Jedes dieser Modelle ist für die Verarbeitung spezifischer Aufgaben oder bestimmter Datentypen konzipiert. Dadurch kann das Gesamtsystem vielfältiges Fachwissen nutzen, um die Leistung zu verbessern.
Laut Huawei besteht der Trainingsprozess aus drei Hauptphasen: Vortraining, Langzeitkontexterweiterung und Nachtraining. Der gesamte Prozess umfasste das Vortraining mit 13,2 Billionen Token und die Langzeitkontexterweiterung mit 8.192 Ascend-Chips – Huaweis leistungsstärkstem KI-Prozessor, der zum Training von KI-Modellen eingesetzt wird und darauf abzielt, Nvidias Vormachtstellung im High-End-Chipdesign herauszufordern.
Durch das Testen der neuen Architektur auf einer Ascend Neural Processing Unit (NPU), die speziell zur Beschleunigung von KI-Aufgaben entwickelt wurde, stellten die Forscher fest, dass MoGE „zu einer besseren Lastverteilung durch Experten und einer effizienteren Leistung sowohl beim Modelltraining als auch bei der Inferenz führt.“
Im Vergleich mit Modellen wie DeepSeek-V3, Alibabas Qwen2.5-72B und Meta Platforms‘ Llama-405B übertrifft Pangu daher die meisten allgemeinen englischen Benchmarks und alle chinesischen Benchmarks und zeigt eine überlegene Leistung beim Training im Langzeitkontext.
Quelle: https://znews.vn/huawei-tuyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html
Kommentar (0)