Google、新世代の思考型AIモデル「Gemini 2.5」を発表

新世代の筆頭は、同社がこれまでで最も賢い思考能力を持つと謳うマルチモーダルAIモデル「Gemini 2.5 Pro Experimental」です。本日3月26日より、Google AI Studio開発者プラットフォームと、Gemini Advancedサブスクリプション（月額20ドル）向けGeminiアプリで利用可能となります。

ジェミニ2.5は、答えを出す前に「考える時間」を待つ機能を備えています。（写真：Google）

考えるAI - Googleの新たな方向性

Googleは今後、すべての新しいAIモデルに思考機能が組み込まれると発表した。

OpenAIが2024年9月に初の思考型AIモデル「o1」を発表して以来、テクノロジー業界はo1の能力に匹敵、あるいは凌駕しようと競い合ってきました。Anthropic、DeepSeek、Google、xAIはいずれも、追加の計算能力を用いて情報を精査し、問題を分析した上で答えを導き出す思考型AIモデルを開発しています。

認知AIの進歩により、モデルは数学やプログラミングを上回る性能を発揮できるようになりました。多くの技術者は、これがAIエージェント（人間の介入なしにタスクを実行できる自動化システム）の重要な基盤となると考えています。しかし、認知AIはより多くのリソースを消費するため、運用コストの増加につながります。

Googleは2024年12月にGeminiの特別バージョンで思考するAIの実験を行った。しかしGemini 2.5は、OpenAIの「o」シリーズに対抗するための同社にとってこれまでで最も本格的な取り組みとなる。

複数の基準で優れたパフォーマンス

Gemini 2.5 Proは、数々のテストで多くのトップ競合製品を上回りました。（写真：Google）

Google は、Gemini 2.5 Pro は以前の AI モデルよりも優れているだけでなく、数多くのテストで多くのトップ競合製品に勝っていると主張しています。

プログラミングコードの編集能力を測定するAider Polyglotベンチマークでは、Gemini 2.5 Proは68.6%のスコアを獲得し、OpenAI、Anthropic、DeepSeekのトップモデルを上回りました。

しかし、ソフトウェア開発能力の SWE-bench Verified テストでは、Gemini 2.5 Pro は 63.8% のスコアを獲得しました。これは OpenAI o3-mini や DeepSeek R1 よりも高いスコアですが、Anthropic の Claude 3.7 Sonnet (70.3%) よりは低いスコアです。

数学、社会科学、自然科学にわたる何千もの質問を含む多分野にわたるテストである「人類の最後の試験」において、Gemini 2.5 Pro は 18.8% のスコアを獲得し、他のほとんどの主要な AI モデルよりも高いスコアを獲得しました。

特筆すべきは、Gemini 2.5 Proが一度に100万トークンを処理できることです。これは約75万語に相当し、ロード・オブ・ザ・リングの小説シリーズ全巻よりも長いです。Googleはまた、近い将来、このモデルが最大200万トークンをサポートし、長いコンテキストの分析と記憶能力を大幅に向上させることを発表しました。

GoogleはGemini 2.5 ProのAPI価格をまだ公表していないが、今後数週間以内に詳細情報を提供する予定だと述べた。

カイン・フエン(出典: Tech Crunch)

出典: https://vtcnews.vn/google-ra-mat-gemini-2-5-the-he-mo-hinh-ai-tu-duy-moi-ar933854.html