GPT-4.5 は OpenAI がこれまでに開発した最大のモデルです。出典: The Verge . |
カリフォルニア大学サンディエゴ校認知科学部の新たな研究は、人工知能の分野における画期的な成果です。OpenAI の GPT-4.5 モデルは、「パーソナリティ」ベースのインタラクション アプローチを使用して、チューリング テストで優れたパフォーマンスを達成しました。
これはこれまでで最も人間に近い AI 会話システムと考えられており、ソーシャル インテリジェンスの分野で多くの潜在的な応用が期待されます。
GPT-4.5は、OpenAIによって「事前トレーニングと事後トレーニングのスケーリングにおける大きな前進」と宣伝されています。これは OpenAI がこれまでに開発した最大のモデルであり、サイズと計算能力は以前のバージョンを上回っています。
OpenAIの2月27日の公式ブログ投稿によると、GPT-4.5は発表当日にChatGPT Proユーザーへの展開を開始した。
AIは人間を騙せるのか?
この実験では、1960年代のELIZAチャットボット、Meta AIのLLaMa-3.1-405B、OpenAIのGPT-4oとGPT-4.5という4つの代表的なAIシステムを比較しました。チームは、Prolific などのオンライン プラットフォームから合計 500 人を対象に、それぞれ 250 人の参加者による 2 つの独立したテストを設計しました。サンプルの多様性を確保するため、参加者はさまざまな年齢、性別、教育レベルで構成されました。
![]() |
代表的な AI システム 4 つの比較表。出典: AIbase |
このテストでは、従来のチューリング形式が採用されています。つまり、各参加者はテキスト インターフェイスを介して 2 人の被験者 (人間 1 人、AI 1 人) と 5 分間チャットし、どちらが人間であるかを評価します。
結果は驚くべきものでした。GPT-4.5 は最大 73% の「チューリング テスト合格」率を達成し、人間の平均 (60-70%) を上回りました。 AI モデルが標準的なチューリング テストに実際に「合格」したのはこれが初めてです。一方、GPT-4o のスコアはわずかに低く、LLaMa-3.1-405B はいくつかの状況で人間のパフォーマンスに近づくか達しますが、ELIZA ははるかに及ばない結果となりました。
人間のように交流する能力
GPT-4.5 のハイライトは、言語の流暢さだけでなく、感情を表現し、対話相手のコミュニケーションのニュアンスに合わせて応答を調整する能力にもあります。多くの参加者はそれを「フレンドリー」かつ「本物」だと表現しました。
特に、ユーザーが混乱したりストレスを感じたりしているように見える場合、GPT-4.5 はユーモラスな応答や慰めの応答を返すことができるため、多くの人は実際の人とチャットしていると信じます。
![]() |
テストにおける2人の被験者(AI1人、人間1人)の会話内容。写真:カリフォルニア大学サンディエゴ校。 |
一方、LLaMa-3.1-405B は技術的には優れているものの、GPT-4.5 に比べると感情表現やコンテキスト適応能力が劣っています。 GPT-4o は強力ですが、パーソナライゼーションと状況応答の適応という点では不十分です。
GPT-4.5 のブレークスルーにより、仮想家庭教師から心理的サポート、顧客ケアまで、幅広い実用的なアプリケーションが実現する可能性があります。しかし、AIがより人間に近づくにつれて、現実と仮想を区別し、この技術の使用方法を制御することが重要な社会的課題になるでしょう。
この研究はAIの急速な発展の中で行われた。 GPT-4.5 の成功は、OpenAI にとって技術的な勝利であるだけでなく、人間と機械の関係についての深い疑問を提起します。あるテスト参加者は、すべてが単なるコード行であることに気付くまでは、まるで友人と話しているような気がしたとコメントしました。人間と AI の対話はまだ始まったばかりなのかもしれません。
出典: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html
コメント (0)