Vietnam.vn - Nền tảng quảng bá Việt Nam

ファーウェイはAIトレーニングがDeepSeekよりも優れていると主張

ファーウェイは米国の技術への依存を減らそうとしており、AIモデリングアーキテクチャにおける同社の進歩は意義深いものである。

ZNewsZNews05/06/2025

DeepSeekのAIトレーニングから改良された技術を活用し、ファーウェイのAscendチップは卓越したパフォーマンスを発揮した。写真:ロイター

ファーウェイのPangu大規模言語モデル(LLM)に取り組んでいる研究者らは6月4日、同社独自のハードウェアを活用して、人工知能(AI)のトレーニングに対するDeepSeekの独自のアプローチを改善したと発表したとサウスカロライナ州モーニングソン通信が報じた。

具体的には、22 人のコア協力者と 56 人の追加研究者を含む Huawei の Pangu チームが発表した論文では、DeepSeek のコスト効率の高い AI モデルで重要な役割を果たした Mixture of Experts (MoE) 手法のアップグレード版である Mixture of Grouped Experts (MoGE) の概念が紹介されました。

論文によると、MoEは大規模なモデルパラメータと高度な学習機能に対して低い実行コストを提供する一方で、しばしば非効率性につながる。これは不均一な活性化に起因し、複数のデバイスで並列実行する際にパフォーマンスを低下させる。

一方、研究者らによると、MoGE は選択プロセスの専門家チームによって改善され、「専門家」の作業負荷のバランスがより良くとれるようになっているという。

AIトレーニングにおいて、「エキスパート」という用語は、より大きなモデル内の専門化されたサブモデルまたはコンポーネントを指します。これらのモデルはそれぞれ、特定のタスクや異なる種類のデータを処理するように設計されます。これにより、システム全体で多様な専門知識を活用し、パフォーマンスを向上させることができます。

ファーウェイによると、学習プロセスは、事前学習、ロングコンテキスト拡張、事後学習の3つの主要フェーズで構成されている。プロセス全体は、13.2兆トークンによる事前学習と、ファーウェイの最も強力なAIプロセッサであるAscendチップ8,192個を使用したロングコンテキスト拡張で構成されていた。AscendチップはAIモデルの学習に使用され、ハイエンドチップ設計におけるNVIDIAの優位性に挑戦することを目指している。

研究者らは、AIタスクを高速化するために特別に設計されたAscendニューラルプロセッシングユニット(NPU)で新しいアーキテクチャをテストした結果、MoGEは「エキスパートの負荷分散を改善し、モデルのトレーニングと推論の両方においてより効率的なパフォーマンスをもたらす」ことを発見した。

その結果、DeepSeek-V3、AlibabaのQwen2.5-72B、Meta PlatformsのLlama-405Bなどのモデルと比較して、Panguはほとんどの一般的な英語ベンチマークとすべての中国語ベンチマークを上回り、長期コンテキストトレーニングで優れたパフォーマンスを示しました。

出典: https://znews.vn/huawei-t​​uyen-bo-huan-luyen-ai-tot-hon-deepseek-post1558359.html


コメント (0)

No data
No data

遺産

仕事

No videos available

ニュース

政治体制

地元

製品