DeepSeek は巳年の初めに新聞やソーシャル ネットワークで頻繁に取り上げられ、世界中の株式市場に激しい揺れを引き起こしました。

しかし、金融アドバイザリー会社バーンスタインの最近のレポートは、素晴らしい実績にもかかわらず、わずか500万ドルで自社のAIシステムに匹敵するAIシステムを作るというOpenAIの主張は不正確であると警告している。

バーンスタイン氏によれば、ディープシークの声明は誤解を招くものであり、全体像を反映していないという。

「ディープシーク社は『500万ドルでOpenAIを作った』わけではないと我々は考えている。モデルは素晴らしいが、魔法だとは思っていない。週末のパニックは誇張されているようだ」と報告書には記されている。

ディープシーク ブルームバーグ
バーンスタインのアナリストは、ディープシークがわずか500万ドルでAIシステムを開発したという主張に懐疑的だ。写真:ブルームバーグ

DeepSeekは、DeepSeek-V3とDeepSeek R1という2つの主要なAIモデルを開発しています。大規模言語モデルV3はMOEアーキテクチャを活用し、より小規模なモデルを組み合わせることで、従来のモデルよりも少ない計算リソースで高いパフォーマンスを実現します。

一方、V3 モデルには 6,710 億のパラメータがあり、そのうち 370 億のパラメータが常時アクティブであり、メモリ使用量を削減する MHLA などの革新技術が組み込まれ、効率性を高めるために FP8 が使用されています。

V3モデルの学習には、2,048基のNvidia H800 GPUクラスターを2か月間使用し、550万GPU時間相当の学習時間が必要でした。学習コストは約500万ドルと推定されていますが、バーンスタインのレポートでは、この数字はコンピューティングリソースのみを指し、研究、テスト、その他の開発コストに関連する莫大なコストは考慮されていないことを強調しています。

DeepSeek R1 モデルは、強化学習 (RL) やその他の技術を使用して推論を確実に実行することで、V3 をベースに構築されています。

R1モデルは推論タスクにおいてOpenAIのモデルと競合できる。しかし、バーンスタイン氏は、R1の開発には多大なリソースが必要だったと指摘しているが、DeepSeekのレポートでは詳細は言及されていない。

DeepSeekについて、バーンスタイン氏はその優れたモデルに注目しました。例えば、V3モデルは、言語、プログラミング、数学の分野において、他の主要な言語モデルと同等かそれ以上の性能を発揮しながら、必要なリソースは少ないと述べています。

V3 の事前トレーニング プロセスに必要なのはわずか 270 万 GPU 時間、つまり他の主要モデルの計算リソースの 9% でした。

DeepSeekの進歩は注目に値するが、誇張された主張には注意が必要だとバーンスタイン氏は結論づけている。わずか500万ドルでOpenAIの競合企業を作るという考えは、見当違いに思える。

(タイムズ・オブ・インディアによると)