DeepSeek が安価な AI モデルの構築方法を公開しました。写真:ブルームバーグ。 |
ディープシークは5月15日に公開した調査レポートで、競合他社の数分の1のコストで世界で最も強力なオープンソースAIシステムの1つを構築した方法について、初めて詳細を明らかにした。
「DeepSeek-V3の洞察:AIアーキテクチャ向けハードウェアのスケーリングの課題と考察」と題されたこの調査は、創設者のLiang Wenfeng氏が共同執筆した。 DeepSeek 社は、ハードウェアとソフトウェアを並行して設計したことが成功の要因だと考えています。多くの企業が依然として独立系ソフトウェアの最適化に重点を置いている状況では、これは異なる動きです。
「2,048個のNvidia H800 GPUでトレーニングされたDeepSeek-V3は、並列設計がこれらの課題に効果的に対処し、大規模な効率的なトレーニングと推論を可能にすることを実証しました」と研究チームは論文に記している。ディープシークとヘッジファンドのハイフライヤーは、2023年に米国が中国への輸出を禁止する前に、H800シリーズのチップを買いだめした。
論文によると、DeepSeekチームは、OpenAIのChatGPTのようなチャットボットの基盤技術である大規模言語モデル(LLM)のトレーニングにかかるハードウェアの限界と「法外なコスト」を十分に認識しているという。その結果、メモリパフォーマンスの向上、チップ間の通信の改善、AI インフラストラクチャ全体の効率化を実現する一連の技術的最適化が実装されました。
さらに、DeepSeek は Model of Expert (MoE) アーキテクチャの役割を重視しています。これは、AI モデルをサブネットワークに分割し、各サブネットワークが入力データの個別の部分を処理し、協力して結果を最適化する機械学習手法です。
MoE はトレーニング コストを削減し、推論を高速化するのに役立ちます。この手法は現在、アリババの最新モデルQwen3をはじめ、中国のテクノロジー業界で広く採用されている。
DeepSeekは、2024年12月に基本V3モデルを、1月にR1推論モデルをリリースして注目を集めました。これらの製品は世界市場に波紋を巻き起こし、AI関連テクノロジー株の急落の一因となった。
DeepSeek は最近さらなる計画を明らかにしていないものの、定期的にレポートを公開することでコミュニティの関心を維持しています。同社は3月下旬にDeepSeek-V3のマイナーアップデートをリリースし、4月下旬には数学証明処理用のProver-V2システムをひっそりとリリースした。
出典: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
コメント (0)