1月に中国のスタートアップ企業DeepSeekはオープンソースのR1推論モデルをリリースした。同社によれば、R1を支える大規模言語モデルは、欧米のAIモデルよりも性能の低いチップを使い、はるかに低コストで開発されたという。

投資家たちはこのニュースに反応し、Nvidiaや他のハイテク企業の株を売り払い、Nvidiaの時価総額はわずか1日で6,000億ドル減少した。しかし、世界最大の半導体企業は、今や失ったもののほとんどを取り戻した。

ディープシーク ブルームバーグ
DeepSeek の大規模言語モデルは、西洋のモデルよりもはるかに低性能で安価なチップを使用して開発されています。写真:ブルームバーグ

ジェンセン・フアン氏は最新のビデオで、市場の極端な反応は投資家がディープシークの進展を誤解していることから生じていると主張している。

彼らは、モデルのトレーニングに必要な計算能力が少なくなるのであれば、大手テクノロジー企業が AI インフラに費やす何兆ドルもの資金が必要なのか疑問視している。

しかし、黄氏は、AIモデルがトレーニング後に結論や予測を導き出せるようにする、トレーニング後の手法のための計算能力が業界にはまだ必要だと述べた。

トレーニング後の方法がより多様化、高度化するにつれ、Nvidia チップが提供する計算能力に対する需要も高まります。

NvidiaのCEOによると、投資家たちは世界には事前トレーニングと推論(AIに質問してすぐに答えを得ること)しかないと考えているが、事後トレーニングこそが​​AIの最も重要な部分だという。そこで専門的な問題を解決することを学びます。

それでも、黄氏はDeepSeekがAIの世界にさらなるエネルギーを「注入」したことを否定していない。 AMDのCEOであるリサ・スー氏も今月初めのインタビューで、DeepSeekは「AIアプリケーションに適した」イノベーションを推進しているとコメントした。

事前トレーニングという用語は、大規模言語モデル (LLM) のトレーニングの初期段階を指します。この段階では、モデルは、通常は最大数兆トークンに達する大規模で多様なデータセットから学習します。

ここでの目標は、モデルが言語、コンテキスト、一般的な知識の種類を全体的に把握できるようにすることです。この段階では、膨大な計算能力とデータが必要になることが多く、数億ドルの費用がかかります。

トレーニング後または微調整という用語は、以前にトレーニングしたモデルを取得し、より具体的なデータセットを使用して再度トレーニングする場合を指します。これらのデータセットは通常、より小さく、特定のドメインまたはタスクに焦点を合わせています。

その目的は、事前トレーニング中に詳細にカバーされていない特定のシナリオやタスクでモデルを調整して、パフォーマンスを向上させることです。トレーニング後に追加された新しい知識は、一般的な知識を拡張するよりもモデルのパフォーマンスを向上させます。

(Insider、Redditによると)