AIチャットボットが「怒り」を爆発させる

4月、プログラマー向けの新興ツールであるCursorのテクニカルサポートを担当するAIボットが、一部の顧客に対し、同社のポリシー変更を通知し、具体的には、Cursorを複数のコンピューターで使用することはできなくなったと伝えた。

顧客はフォーラムやソーシャルメディアに怒りを投稿し、中にはCursorのアカウントを解約した人もいました。しかし、AIボットが実際には存在しないポリシー変更を報告していたことに気づいたとき、さらに激怒した人もいました。

「そのようなポリシーはありません。もちろん、Cursorは複数のマシンで使用できます。残念ながら、これはAIボットからの誤った応答でした」と、同社のCEO兼共同創設者であるマイケル・トゥルーエル氏はRedditへの投稿で述べた。

偽の情報が制御不能になっています。

ChatGPT のリリースから 2 年以上経ち、テクノロジー企業、オフィスワーカー、一般消費者がさまざまなタスクに AI ボットを利用する頻度が高まっています。

しかし、これらのシステムが正確な情報を生成しているかどうかを保証する方法はありません。逆説的に、OpenAI、Google、DeepSeekといった企業が提供する「推論」システムと呼ばれる最も強力な新技術は、より多くの誤りを犯しています。

ChatGPTでユーザーが犬にシリアルを食べさせるべきか尋ねる、意味不明な会話。写真： Reddit

数学的スキルが劇的に向上する一方で、大規模言語モデル（LLM）が真実を捉える能力はますます不安定になっています。驚くべきことに、エンジニア自身でさえ、その理由を全く理解していません。

ニューヨーク・タイムズによると、今日のAIチャットボットは、膨大なデジタルデータを分析することでスキルを学習するために、複雑な数学的システムに依存しています。しかし、何が正しくて何が間違っているかを判断することはできません。

そこから「幻覚」、つまり情報の自己捏造状態が現れます。実際、研究によると、最新世代のLLMは、一部の旧モデルよりも「幻覚」に悩まされることが多いことが分かっています。

具体的には、最新のレポートで、OpenAIは、o3モデルが、同社の人間に関するモデルの知識の正確さを測定するための社内基準であるPersonQAの質問の33%に回答する際に「幻覚を起こした」ことを発見した。

比較すると、これはOpenAIの以前の推論モデルであるo1とo3-miniの「幻覚」率の2倍に相当します。o1とo3-miniはそれぞれ16%と14.8%の確率で幻覚に悩まされました。一方、o4-miniモデルはPersonQAでさらに悪いパフォーマンスを示し、48%の確率で幻覚に悩まされました。

さらに懸念されるのは、「ChatGPTの父」でさえ、なぜこのようなことが起こるのかを実際には理解していないことです。具体的には、o3とo4-miniに関する技術レポートの中で、OpenAIは「推論モデルのスケールアップに伴って『錯覚』が悪化する理由を理解するには、さらなる研究が必要だ」と述べています。

o3とo4-miniは、プログラミングや数学関連のタスクなど、いくつかの分野で優れた成績を収めました。しかし、「一般化よりも多くの記述を行う」必要があったため、どちらのモデルも「正しい記述は増えるが、誤った記述も増える」という問題を抱えていました。