ChatGPTの新しい推論モデル

o3 proは複雑なリクエストを処理する能力に優れています。画像: OpenAI。

OpenAIは、API経由でTeamと連携し、月額200ドルのProパッケージ「o3 Pro」をリリースしました。数ヶ月前にリリースされたo3のアップグレード版であるo3 Proは、同社によれば現在入手可能な中で最も強力なバージョンです。

「Pro」という単語が追加されたすべてのバージョンは、より難しく長い質問に答える能力を備えています。一般的なAIバージョンとは異なり、推論モデルは問題を段階的に処理するため、物理学、数学、プログラミングなどの分野でより安定して信頼性の高い動作を実現します。

同社は、「速度よりも信頼性が重視される難しい質問には、o3-proのご利用をお勧めします。数分待つことは、価値のあるトレードオフです」と述べています。共有されたテストレビューでは、o3-proはo3およびo1-proバージョンと比較して優れた結果を達成しました。

この新しいモデルについて、元Apple社員でAI開発企業Raindropの共同創業者であるベン・ハイラック氏は、「はるかにスマートになった」とコメントしました。彼は社内でこれまでに行われたすべての会議の履歴をまとめ、o3-proにプランの作成を依頼しました。

結果は非常に印象的で、具体的かつ明確に分析されていました。まさに彼が大規模言語モデリング（LLM）に期待していた通りの成果でした。計画には、目標指標、タイムライン、優先事項、そして完全に排除すべき項目に関する厳格な指針が含まれていました。「あまりにも具体的で根拠が明確だったので、会社の将来を考え直さざるを得ませんでした」と彼は記しています。

新しい推論モデル画像1

o3 pro（左）で得られた結果はより具体的で信頼性が高い。写真：Ben Hylak/X

O3-proは、投資トークン100万枚につき20ドル、API経由でエクスポートする場合は100万枚につき80ドルの費用がかかります。これは、AIがデータを記憶・処理する能力によるものです。投資トークン100万枚は約75万語に相当し、 The Vergeが比較したところによると、これは書籍『戦争と平和』よりも長いものです。

OpenAIによると、専門家はテストされたすべてのカテゴリーにおいて、o3 proをo3よりも一貫して高く評価しています。また、レビュー担当者は、明確さ、理解しやすさ、正確性といった複数の基準における一貫性についても、o3 proに高い評価を与えており、特に科学、教育、プログラミング、ビジネス、ライティングサポートといった主要分野において高い評価を得ています。

モデルの数学的能力を評価するテストであるAIME 2024において、o3 proはGoogleの最高峰AIであるGemini 2.5 Proよりも高いスコアを獲得しました。さらに、博士レベルの科学知識テストであるGPQA Diamondでは、AnthropicのClaude 4 Opusを上回りました。

o3 proには、ウェブ検索、ファイル分析、Pythonを使った計算・プログラミング、そしてメモリを活用したレスポンスのパーソナライズを可能にするツールも統合されています。この点について、ベン・ハイラック氏は、このツールが周囲の状況を認識し、外の世界について（知っているふりをするのではなく）いつ質問すべきかを理解し、それぞれのタスクに適したツールを選択する能力を明確に示していると述べています。

しかし、このモデルの最大の欠点は応答時間にあり、O1 Proよりもさらに遅い。YouTuberのビジャン・ボーエン氏もこれに同意している。「モデルの応答は、ほんの数行の説明文で非常に明確ですが、応答時間はかなり長いです」と彼は述べている。特に外部データが不十分な場合、モデルは考えすぎてしまう傾向があるとベン・ハイラック氏は付け加えた。

O3-proには、画像作成機能やCanvas機能のサポートなど、他にもいくつかの制限があります。ChatGPTにおけるこのモデルを使った一時的なチャット機能は、OpenAIが「技術的な問題」を修正している間、現在無効になっています。

しかし、Hylak氏は、これはClaude 3.5 SonnetやChatGPT 4oのようなユーザーフレンドリーなチャットのモデルではないと主張しています。Rockerboxの製品責任者であるNate B. Jones氏は、o3 proは15～20分の思考を必要とする難しいタスクに使用するべきだとアドバイスしています。

出典: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html