OpenAIの最大かつ最も理解力の高い言語モデルがリリースされました

OpenAI の新しい言語モデルは、以前の GPT-4 フレームワークに基づいていますが、トレーニング中に拡張および改善されています。 GPT-4.5 は最も高度ではありませんが、前身よりも多くの知識、改善されたライティングスキル、そしてより洗練された個性を誇ります。

mo hinh ngon ngu lon va hieu biet nhat cua openai ra mat hinh anh 1

ベンチマークデータによると、GPT-4.5 は GPT-4 に比べてわずかにアップグレードされています。 SWE-bench Verified ベンチマークでは、モデルは 38% を達成しました。これは GPT-4 と比べて 2 ～ 7% の改善ですが、OpenAI の o3 ベースのディープラーニングと比べるとまだ 30% 低い結果です。比較すると、Anthropic の Claude 3.7 Sonnet モデルは同じベンチマークで 62.3% の効率を達成しています。 SimpleQA の精度ベンチマークでは、GPT-4.5 のスコアは 62.5% でしたが、GPT-4 は 38.2% でした。しかし、SimpleQA の Hallucination Rate ベンチマークでは、GPT-4.5 は OpenAI の大規模言語モデルの中で最低のスコアを記録しました。

OpenAIの新しい基準を満たす

最近、OpenAI の準備チームは、機能開発やバグ修正などの実際のソフトウェアエンジニアリングタスクにおける大規模言語モデルのパフォーマンスを評価するために、SWE-Lancer と呼ばれる新しいベンチマークを開発しました。このベンチマークでは、GPT-4.5 は IC SWE タスクの 20%、SWE Manager タスクの 44% を解決でき、以前のモデルと比べてわずかに改善されています。

mo hinh ngon ngu lon va hieu biet nhat cua openai ra mat hinh anh 2

安全性の面では、OpenAI の安全性諮問グループは、GPT-4.5 をサイバーセキュリティとモデルの自律性の分野で低いスコアを持ち、中程度のリスクがあると分類しました。

ChatGPT Pro ユーザーは、Web、モバイル、デスクトップのモデルピッカーを介して GPT-4.5 モデルのプレビューを体験できるようになりました。このモデルは、ChatGPT でのファイル、画像、キャンバス機能の検索、ダウンロードをサポートします。音声モード、ビデオ、画面共有などのマルチモーダル機能は将来追加される予定です。

GPT-4.5 は、関数呼び出し、構造化出力、ストリーミング、システムメッセージングなどの注目すべき機能を備え、ChatGPT Plus および Teams ユーザー、および Chat Completions API、Assistants API、Batch API を介してすべての有料開発者向けに来週正式にリリースされます。