ChatGPTの「幻覚」に関する警告

新たに発売された2つのChatGPTモデルは、前世代よりも情報捏造の頻度が高くなっています。写真： Fireflies 。

GPT-4.1の発表からわずか2日後、OpenAIはo3とo4-miniという2つの新しいモデルを正式にリリースしました。どちらのモデルも、いくつかの強力な改良点を備え、優れた推論能力を発揮します。

しかし、 TechCrunchによると、これら2つの新しいモデルは依然として「幻覚」、つまり情報の捏造に悩まされているとのことです。実際、OpenAIの古いモデルの一部よりも「幻覚」に悩まされているようです。

IBM によると、幻覚とは、大規模言語モデル (LLM) (通常はチャットボットまたはコンピュータービジョンツール) が存在しない、または人間が認識できないデータパターンを受信し、意味のない、または誤解を招く結果をもたらすことです。

つまり、ユーザーはAIに対し、学習データに基づいた正確な結果を求めることがよくあります。しかし、AIの結果が正確なデータに基づいていない場合があり、「錯覚的な」回答を生み出すことがあります。

OpenAIは最新の報告書で、o3が、人間に関するモデルの知識の正確さを測る同社の社内ベンチマークであるPersonQAの質問の33%に回答する際に「幻覚を起こした」ことを発見した。

比較すると、これはOpenAIの以前の推論モデルであるo1とo3-miniの「幻覚」率の2倍に相当します。o1とo3-miniはそれぞれ16%と14.8%の確率で幻覚に悩まされました。一方、O4-miniモデルはPersonQAでさらに悪い結果となり、48%の確率で幻覚に悩まされました。

さらに懸念されるのは、「ChatGPTの父」でさえ、なぜこのようなことが起こるのかを実際には理解していないことです。具体的には、o3とo4-miniに関する技術レポートの中で、OpenAIは「推論モデルのスケールアップに伴って『錯覚』が悪化する理由を理解するには、さらなる研究が必要だ」と述べています。

o3とo4-miniは、プログラミングや数学関連のタスクなど、いくつかの分野で優れた成績を収めました。しかし、「一般化よりも多くの記述を行う」必要があったため、どちらのモデルも「正しい記述は増えるが、誤った記述も増える」という問題を抱えていました。

出典: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html