プログラミングと数学のテストでは、S1 (モデル名) が OpenAI の o1 やDeepSeek の R1 などの最先端の推論 AI モデルと同等のパフォーマンスを発揮することが示されています。

注目すべきことに、S1 はオープンソース モデルであり、誰でも GitHub リポジトリからアクセスできます。

開発チームによると、まずは利用可能な基本モデルから始めて、その後「蒸留」、つまり別の AI モデルの回答をトレーニングして「推論」能力を抽出するプロセスを通じて改良していったとのことです。

具体的には、S1 は Google の Gemini 2.0 Flash Thinking Experimental モデルから抽出されたものです。蒸留プロセスは、バークレー大学の科学者が約 450 ドルのモデルを作成するために行ったものと似ています。

ゲッティイメージズ 1168836247 1.jpg.jpeg
DeepSeek が安価な AI の開発競争を開始。写真: TechCrunch

s1 の研究者たちは、強力な推論パフォーマンスを実現し、「テスト中にスケールアップ」する最も簡単な方法を見つけました。つまり、AI モデルが質問に答える前にさらに考えることができるようになるのです。

これは OpenAI の o1 における画期的な成果の 1 つであり、DeepSeek や他の AI ラボはさまざまな手法を通じてこれを再現しようと試みてきました。

S1 論文では、AI モデルにデータセット内の特定の動作を模倣するように明示的に指示する、教師あり微調整 (SFT) と呼ばれるプロセスを通じて、かなり小さなデータセットで推論モデルを抽出できることが示されています。

SFT は、DeepSeek が R1 モデルのトレーニングに使用した大規模な強化学習アプローチよりも一般的に安価です。

Google は、Google AI Studio プラットフォームを通じて、1 日の頻度制限はあるものの、Gemini 2.0 Flash Thinking Experimental への無料アクセスを提供しています。

しかし、Google の規約では、同社の AI 製品と競合するサービスを開発するためにモデルをリバース エンジニアリングすることを禁止しています。

S1 は、アリババが所有する AI ラボ Qwen から入手できる小規模な AI モデルに基づいており、無料でダウンロードできます。 S1 をトレーニングするために、研究者らは、Google の Gemini 2.0 Flash Thinking Experimental から厳選した 1,000 の質問とその回答、および各回答の背後にある「思考」プロセスのデータセットを作成した。

このトレーニング プロセスは、16 個の Nvidia H100 GPU を使用して 30 分未満で完了しましたが、それでもいくつかの AI ベンチマークで優れた結果が得られました。スタンフォード大学の研究者、ニクラス・ミュニホフ氏は、必要な計算能力をレンタルするコストはわずか20ドル程度だと語った。

研究者たちは、S1に作業をチェックさせ、「考える時間」を延ばすために、推論プロセスに「待つ」という言葉を追加してモデルに待つように求めるなどのトリックを使い、モデルがより正確な答えを導き出すのを助けた。

Meta、Google、Microsoft は 2025 年までに AI インフラに数千億ドルを投資する計画で、その一部は次世代 AI モデルのトレーニングに使用される予定です。 AI のイノベーションを推進するには、このレベルの投資がまだ必要になるかもしれません。

蒸留は、低コストで AI モデルの機能を複製する優れた方法であることが証明されていますが、現在存在するものよりも優れた新しい AI モデルを作成するわけではありません。

(TechCrunchによると)

Google は中国の AI に対抗するため、Gemini 2.0 を正式にリリースしました。Google は、多くのバージョンとアップデートを備えた次世代チャットボット、Gemini 2.0 を正式にリリースしました。