ChatGPTは機械と人間の識別という重要なテストに合格しました

GPT-4.5はOpenAIがこれまでに構築した最大のモデルです。出典： The Verge

カリフォルニア大学サンディエゴ校認知科学部の新たな研究は、人工知能の分野における画期的な成果です。OpenAI の GPT-4.5 モデルは、「パーソナリティ」ベースのインタラクションアプローチを使用して、チューリングテストで優れたパフォーマンスを達成しました。

これはこれまでで最も人間に近い AI 会話システムと考えられており、ソーシャルインテリジェンスの分野で多くの潜在的な応用が期待されます。

GPT-4.5は、OpenAIによって「事前学習と事後学習のスケーリングにおける大きな飛躍」と謳われています。これはOpenAIがこれまでに構築した中で最大のモデルであり、その規模と計算能力は以前のバージョンを凌駕しています。

OpenAIの2月27日の公式ブログ投稿によると、GPT-4.5は発表当日にChatGPT Proユーザーへの展開を開始した。

AIは人間を騙せるのか？

この実験では、1960年代のチャットボットELIZA、Meta AIのLLaMa-3.1-405B、OpenAIのGPT-4oとGPT-4.5という4つの代表的なAIシステムを比較しました。研究チームは、それぞれ250人の参加者からなる独立したテストを2つ設計し、Prolificなどのオンラインプラットフォームから合計500人の参加者を集めました。参加者は、多様なサンプルを確保するために、年齢、性別、教育レベルが異なっていました。

代表的なAIシステム4つの比較表。出典： AIbase

このテストでは、従来のチューリング形式が採用されています。つまり、各参加者はテキストインターフェイスを介して 2 人の被験者 (人間 1 人、AI 1 人) と 5 分間チャットし、どちらが人間であるかを評価します。

結果は驚くべきものでした。GPT-4.5は「チューリングテスト合格率」で最大73%を達成し、人間の平均（60～70%）を上回りました。AIモデルが標準的なチューリングテストに実際に「合格」したのはこれが初めてです。一方、GPT-4oのスコアはわずかに低く、LLaMa-3.1-405Bは一部のコンテキストで人間のパフォーマンスに近づいたり達したりしましたが、ELIZAは大きく及ばない結果となりました。

人間のように交流する能力

GPT-4.5の際立った特徴は、言語の流暢さだけでなく、感情表現能力や、対話相手のニュアンスに合わせて応答を調整する能力も備えていることでした。多くの参加者は、GPT-4.5を「親しみやすい」「本物」と評しました。

特に、ユーザーが混乱したりストレスを感じたりしているように見える場合、GPT-4.5 はユーモラスな応答や慰めの応答を提供できるため、多くの人が実際の人とチャットしていると信じ込むことができました。

テスト中の2人の被験者（AIと人間）の会話。写真：カリフォルニア大学サンディエゴ校。

一方、LLaMa-3.1-405Bは技術的には優れているものの、GPT-4.5に比べて表現力と文脈適応性に欠けています。GPT-4oは強力ですが、パーソナライゼーションと状況適応の点では劣っています。

GPT-4.5のブレークスルーは、バーチャルチューターから心理サポート、カスタマーケアまで、幅広い実用的なアプリケーションへの応用を可能にする可能性があります。しかし、AIがより人間らしくなるにつれて、現実と仮想を区別し、この技術の利用方法を規制することが、重要な社会的課題となるでしょう。

この研究は、AIの急速な進歩の真っ只中に行われました。GPT-4.5の成功は、OpenAIにとって技術的な勝利であるだけでなく、人間と機械の関係性について深遠な疑問を提起しています。あるテスターは、まるで友人と話しているような感覚だったとコメントしました。しかし、それが単なるコードの羅列だと気づくまでは。人間とAIの対話は、まだ始まったばかりなのかもしれません。

出典: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html