DeepSeekが安価なAIモデルの構築方法を公開。写真:ブルームバーグ |
ディープシークは5月15日に公開した調査レポートで、競合他社の数分の1のコストで世界で最も強力なオープンソースAIシステムの1つを構築した方法について、初めて詳細を明らかにした。
「DeepSeek-V3の洞察:AIアーキテクチャにおけるスケーリングの課題とハードウェアへの考察」と題されたこの調査は、創業者のリアン・ウェンフェン氏が共同執筆したものです。DeepSeekは、ハードウェアとソフトウェアを並行して設計したことが成功の要因であるとしており、これはソフトウェアを個別に最適化することに注力する多くの企業とは異なるアプローチです。
「2,048基のNvidia H800 GPUで学習したDeepSeek-V3は、並列設計がこれらの課題に効果的に対処し、大規模な効率的な学習と推論を可能にすることを実証した」と研究チームは論文に記している。DeepSeekとヘッジファンドのHigh-Flyerは、米国が2023年に中国への輸出を禁止する前に、H800チップラインを買いだめしていた。
論文によると、DeepSeekチームは、OpenAIのChatGPTのようなチャットボットの基盤技術である大規模言語モデル(LLM)のトレーニングにおけるハードウェアの限界と「法外なコスト」を認識しており、メモリ効率を高め、チップ間通信を改善し、AIインフラ全体の効率を向上させる一連の技術的最適化を実装した。
さらに、DeepSeekはModel of Expert(MoE)アーキテクチャの役割を重視しています。これは、AIモデルをサブネットワークに分割し、各サブネットワークが入力データの個別の部分を処理し、協調して結果を最適化する機械学習手法です。
MoEは学習コストを削減し、推論を高速化します。この手法は、アリババの最新モデルQwen3をはじめ、中国のテクノロジー業界で広く採用されています。
DeepSeekは、2024年12月に基本モデルV3を、そして1月に推論モデルR1をリリースし、大きな話題となりました。これらの製品は世界市場に衝撃を与え、AI関連テクノロジー株の急落の一因となりました。
DeepSeekは最近、今後の計画を明らかにしていないものの、定期的にレポートを公開することでコミュニティの関心を維持してきました。3月下旬にはDeepSeek-V3のマイナーアップデートをリリースし、4月下旬には数学証明処理システムProver-V2をひっそりとリリースしました。
出典: https://znews.vn/deepseek-tiet-lo-bi-mat-post1554222.html
コメント (0)