GPT-4.5はOpenAIがこれまでに構築した最大のモデルです。出典: The Verge 。 |
カリフォルニア大学サンディエゴ校認知科学部の新たな研究は、人工知能の分野における画期的な成果です。OpenAI の GPT-4.5 モデルは、「パーソナリティ」ベースのインタラクション アプローチを使用して、チューリング テストで優れたパフォーマンスを達成しました。
これはこれまでで最も人間に近い AI 会話システムと考えられており、ソーシャル インテリジェンスの分野で多くの潜在的な応用が期待されます。
GPT-4.5は、OpenAIによって「事前学習と事後学習のスケーリングにおける大きな前進」と謳われています。これはOpenAIがこれまでに構築した中で最大のモデルであり、その規模と計算能力は以前のバージョンを凌駕しています。
OpenAIの2月27日の公式ブログ投稿によると、GPT-4.5は発表当日にChatGPT Proユーザーへの展開を開始した。
AIは人間を騙せるのか?
この実験では、1960年代のチャットボットELIZA、Meta AIのLLaMa-3.1-405B、OpenAIのGPT-4oとGPT-4.5という4つの代表的なAIシステムを比較しました。研究チームは、それぞれ250人の参加者からなる独立したテストを2つ設計し、Prolificなどのオンラインプラットフォームから合計500人の参加者を集めました。参加者は、多様なサンプルを確保するため、年齢、性別、教育レベルが異なっていました。
![]() |
代表的なAIシステム4つの比較表。出典: AIbase |
このテストでは、従来のチューリング形式が採用されています。つまり、各参加者はテキスト インターフェイスを介して 2 人の被験者 (人間 1 人、AI 1 人) と 5 分間チャットし、どちらが人間であるかを評価します。
結果は驚くべきものでした。GPT-4.5は「チューリングテスト合格率」73%を達成し、人間の平均(60~70%)を上回りました。AIモデルが標準的なチューリングテストに実際に「合格」したのはこれが初めてです。一方、GPT-4oのスコアはわずかに低く、LLaMa-3.1-405Bは一部のコンテキストで人間のパフォーマンスに近づいたり、達したりしましたが、ELIZAは大きく及ばない結果となりました。
人間のように交流する能力
GPT-4.5の特徴は、言語の流暢さだけでなく、感情表現や対話相手のニュアンスに合わせた応答の適応能力も備えていることです。多くの参加者は、GPT-4.5を「親しみやすい」「本物」と評しました。
特に、ユーザーが混乱したりストレスを感じたりしているように見える場合、GPT-4.5 はユーモラスな応答や慰めの応答を返すことができるため、多くの人は実際の人とチャットしていると信じます。
![]() |
テスト中の2人の被験者(AIと人間)の会話。写真:カリフォルニア大学サンディエゴ校。 |
一方、LLaMa-3.1-405Bは技術的には優れているものの、GPT-4.5に比べて表現力と状況適応性に欠けています。GPT-4oは強力ですが、パーソナライゼーションと状況適応の点で劣っています。
GPT-4.5のブレークスルーは、バーチャル家庭教師から心理サポート、顧客サービスまで、幅広い実用的なアプリケーションへの応用を可能にする可能性があります。しかし、AIがより人間らしくなるにつれて、現実と空想を区別し、テクノロジーの利用方法を規制することが、大きな社会的課題となるでしょう。
この研究は、AIの急速な進歩の真っ只中に行われました。GPT-4.5の成功は、OpenAIにとって技術的な勝利であるだけでなく、人間と機械の関係性について深遠な疑問を提起しています。あるテスターは、まるで友人と話しているような感覚だったとコメントしました。しかし、それが単なるコードの羅列だと気づくまでは。人間とAIの対話は、まだ始まったばかりなのかもしれません。
出典: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html
コメント (0)