o3 proは複雑なリクエストを処理する能力に優れています。写真:OpenAI。 |
OpenAIは、月額200ドルのProプランとAPI経由でTeamプランにo3 Proをリリースしました。数ヶ月前に発表されたo3のアップグレード版であるo3 Proは、同社によればこれまでで最も強力なツールとのことです。
「Pro」の刻印が付いたすべてのバージョンは、より難しく長い質問に答える能力を備えています。通常のAIバージョンとは異なり、推論モデルは問題を段階的に解決するため、物理学、数学、プログラミングなどの分野において、より信頼性と一貫性を持って動作することができます。
同社は、「速度よりも信頼性が重視され、数分待つことにも価値がある難しい質問には、o3-proを推奨します」と述べています。共同テストレビューでは、o3-proはo3およびo1-proよりも優れた性能を示しました。
元Apple社員でAIスタートアップRaindropの共同創業者であるベン・ハイラック氏は、新しいモデルははるかにスマートだと述べた。彼は社内の過去の会議の履歴をすべて収集し、o3-proにプランの作成を依頼した。
結果は実に印象的で、大規模言語モデル(LLM)に期待していた通り、具体的かつ分析的なものでした。計画には目標指標、タイムライン、優先順位、そして完全に排除すべき項目に関する厳格な指示が含まれていました。「あまりにも具体的で根拠のある内容だったので、会社の将来を考え直さざるを得ませんでした」と彼は記しています。
o3 pro(左)の結果はより具体的で根拠が明確です。写真:Ben Hylak/X |
O3-proは、API経由で使用する場合、入力トークン100万個につき20ドル、出力トークン100万個につき80ドルかかります。これはAIがデータを記憶・処理する能力です。入力トークン100万個は約75万語に相当し、 The Vergeが比較した書籍『戦争と平和』よりも長いです。
OpenAIによると、専門家はテストされたすべてのカテゴリーにおいて、o3 Proをo3よりも一貫して高い評価を与えています。評価者はまた、明瞭性、追従性、正確性など、多くの基準における一貫性についてもo3 Proに高い評価を与えており、特に科学、 教育、プログラミング、ビジネス、ライティングサポートといった主要分野において高い評価を得ています。
モデルの数学的能力を評価するテストであるAIME 2024において、o3 ProはGoogleの主力AIであるGemini 2.5 Proよりも高いスコアを獲得しました。また、博士レベルの科学知識テストであるGPQA Diamondでは、AnthropicのClaude 4 Opusを上回りました。
o3 proには、ウェブ検索、ファイル分析、Pythonを使った計算・プログラミング、そしてメモリを活用したレスポンスのパーソナライズを可能にするツールも内蔵されています。この点について、ベン・ハイラック氏は、このツールは周囲の状況を認識し、外の世界について(知っているふりをするのではなく)いつ質問すべきか、そしてそれぞれのタスクに適したツールを選択する能力を明確に示していると述べています。
しかし、このモデルの最大の欠点は応答時間で、O1 Proよりもさらに遅い。YouTuberのビジャン・ボーエン氏も同意見だ。「モデルの答えはほんの数文で非常に明確ですが、応答時間はかなり長いです」と彼は述べている。特に外部データが十分にない場合、モデルは場当たり的に考えてしまう傾向があるとベン・ヒラック氏は付け加えた。
O3-proには、画像作成機能やCanvas機能のサポートなど、他にもいくつかの制限があります。OpenAIが「技術的な問題」を修正している間、ChatGPTにおけるこのモデルのチャット機能は一時的に無効になっています。
しかし、ハイラック氏は、これはClaude 3.5 SonnetやChatGPT 4oのようなチャットユーザー向けのモデルではないと考えています。Rockerboxの製品責任者であるネイト・B・ジョーンズ氏のアドバイスによると、o3 proは15~20分の思考を必要とする難しいタスクに使用することを推奨しています。
出典: https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html






コメント (0)