OpenAI の新しい言語モデルは、以前の GPT-4 フレームワークに基づいていますが、トレーニング中に拡張および改善されています。 GPT-4.5 は最も高度ではありませんが、前身よりも多くの知識、改善されたライティング スキル、そしてより洗練された個性を誇ります。
ベンチマーク データによると、GPT-4.5 は GPT-4 に比べてわずかにアップグレードされています。 SWE-bench Verified ベンチマークでは、モデルは 38% を達成しました。これは GPT-4 と比べて 2 ~ 7% の改善ですが、OpenAI の o3 ベースのディープラーニングと比べるとまだ 30% 低い結果です。比較すると、Anthropic の Claude 3.7 Sonnet モデルは同じベンチマークで 62.3% の効率を達成しています。 SimpleQA の精度ベンチマークでは、GPT-4.5 のスコアは 62.5% でしたが、GPT-4 は 38.2% でした。しかし、SimpleQA の Hallucination Rate ベンチマークでは、GPT-4.5 は OpenAI の大規模言語モデルの中で最低のスコアを記録しました。
OpenAIの新しい基準を満たす
最近、OpenAI の準備チームは、機能開発やバグ修正などの実際のソフトウェア エンジニアリング タスクにおける大規模言語モデルのパフォーマンスを評価するために、SWE-Lancer と呼ばれる新しいベンチマークを開発しました。このベンチマークでは、GPT-4.5 は IC SWE タスクの 20%、SWE Manager タスクの 44% を解決でき、以前のモデルと比べてわずかに改善されています。
安全性の面では、OpenAI の安全性諮問グループは、GPT-4.5 をサイバーセキュリティとモデルの自律性の分野で低いスコアを持ち、中程度のリスクがあると分類しました。
ChatGPT Pro ユーザーは、Web、モバイル、デスクトップのモデル ピッカーを介して GPT-4.5 モデルのプレビューを体験できるようになりました。このモデルは、ChatGPT でのファイル、画像、キャンバス機能の検索、ダウンロードをサポートします。音声モード、ビデオ、画面共有などのマルチモーダル機能は将来追加される予定です。
GPT-4.5 は、関数呼び出し、構造化出力、ストリーミング、システム メッセージングなどの注目すべき機能を備え、ChatGPT Plus および Teams ユーザー、および Chat Completions API、Assistants API、Batch API を介してすべての有料開発者向けに来週正式にリリースされます。
コメント (0)