
4月、プログラマー向けの新興ツールであるCursorのテクニカルサポートを担当するAIボットが、一部の顧客に対し、会社のポリシー変更を通知し、具体的には、Cursorを複数のコンピューターで使用することはできなくなったと伝えた。
顧客はフォーラムやソーシャルメディアに怒りを投稿し、中にはCursorアカウントを解約した人もいました。しかし、AIボットが実際には存在しないポリシー変更を報告していたことに気づき、さらに怒りを募らせる人もいました。
「そのようなポリシーはありません。もちろん、Cursorは複数のマシンで使用できます。残念ながら、これはAIボットからの誤った応答でした」と、同社のCEO兼共同創業者であるマイケル・トゥルーエル氏はRedditへの投稿で述べた。
偽の情報は制御不能です。
ChatGPT のリリースから 2 年以上経ち、テクノロジー企業、オフィスワーカー、一般消費者がさまざまなタスクに AI ボットを使用する頻度が高まっています。
しかし、これらのシステムが正確な情報を生成していることを保証する方法はありません。逆説的に、OpenAI、Google、DeepSeekなどの企業が開発した「推論」システムと呼ばれる最も強力な新技術は、より多くの誤りを犯しています。
![]() |
ChatGPTでユーザーが犬にシリアルを食べさせるべきか尋ねる、意味不明な会話。写真: Reddit |
数学的スキルが劇的に向上する一方で、大規模言語モデル(LLM)が真実を捉える能力はますます不安定になっています。驚くべきことに、エンジニア自身でさえその理由を全く理解していません。
ニューヨーク・タイムズによると、今日のAIチャットボットは、膨大なデジタルデータを分析することでスキルを学習するために、複雑な数学的システムに依存しています。しかし、何が正しくて何が間違っているかを判断することはできません。
そこから「幻覚」、つまり情報の自己捏造の状態が現れます。実際、研究によると、最新世代のLLMは、一部の旧モデルよりも「幻覚」を起こしやすいことが分かっています。
具体的には、最新のレポートで、OpenAIは、o3モデルが、人間に関するモデルの知識の正確さを測定するための同社の社内基準であるPersonQAの質問の33%に回答する際に「幻覚を起こした」ことを発見しました。
比較すると、これはOpenAIの以前の推論モデルであるo1とo3-miniの「幻覚」率の2倍に相当し、それぞれ16%と14.8%の「幻覚」率でした。一方、o4-miniモデルはPersonQAでさらに悪いパフォーマンスを示し、48%の確率で「幻覚」に悩まされました。
さらに懸念されるのは、「ChatGPTの父」でさえ、なぜこのようなことが起こるのかを実際には理解していないことです。具体的には、o3とo4-miniに関する技術レポートの中で、OpenAIは「推論モデルのスケールが大きくなるにつれて『錯覚』が悪化する理由を理解するには、さらなる研究が必要だ」と述べています。
o3とo4-miniは、プログラミングや数学関連のタスクなど、いくつかの分野で優れた成績を収めました。しかし、「一般化よりも多くの記述を行う」必要があったため、どちらのモデルも「正しい記述は増えるが、誤った記述も増える」という問題を抱えていました。
「それは決して消えないだろう」
LLMシステムは、人間のエンジニアが定めた厳格なルールセットではなく、数学的な確率を用いて最適な応答を推測します。そのため、常にある程度の誤差が生じます。
「私たちが最善を尽くしたにもかかわらず、AIモデルは常に妄想に陥り続けるでしょう。それは決して消えることはない」と、元Google幹部のアムル・アワダラー氏は述べた。
![]() |
IBMによると、幻覚とは、大規模言語モデル(LLM)(通常はチャットボットやコンピュータービジョンツール)が、存在しない、あるいは人間には認識できないデータパターンを受け取り、意味のない、あるいは誤解を招く結果を生み出す現象です。写真: iStock。 |
OpenAIは実験に関する詳細な論文の中で、こうした結果の理由を理解するにはさらなる研究が必要だと述べた。
AIシステムは人間が理解できるよりもはるかに大量のデータから学習するため、なぜそのような動作をするのかを判断するのは難しいと専門家は言う。
「錯視は推論モデルにおいて本質的により一般的ですが、o3とo4-miniで見られる発生率を低減するために積極的に取り組んでいます。今後もすべてのモデルにおいて錯視の解決に取り組み、精度と信頼性の向上に努めていきます」と、OpenAIの広報担当者であるギャビー・ライラ氏は述べています。
複数の独立した企業や研究者によるテストでは、GoogleやDeepSeekなどの企業の推論モデルでも幻覚の発生率が上昇していることが示されています。
アワダラ氏の会社であるベクターラは、2023年後半から、チャットボットが情報を偽って伝えている頻度を追跡してきました。同社は、特定のニュース記事を要約するという単純で検証しやすいタスクをシステムに実行させました。しかし、それでもチャットボットは情報の捏造を続けました。
具体的には、Vectara の初期調査では、このシナリオではチャットボットが少なくとも 3% の確率で情報を捏造し、場合によっては 27% にも上ると推定されました。
過去1年半で、OpenAIやGoogleといった企業はこの数字を1~2%程度にまで削減しました。一方、サンフランシスコのスタートアップ企業Anthropicのような企業は、4%前後で推移しています。
しかし、このテストでは、推論システムにおける幻覚の発生率は引き続き増加しました。DeepSeekのR1推論システムでは幻覚の発生頻度が14.3%増加し、OpenAIのo3では6.8%増加しました。
もう 1 つの問題は、推論モデルは、最終的な答えを出す前に、複雑な問題について「考える」ことに時間を費やすように設計されていることです。
![]() |
AppleはmacOS 15.1の最初のテスト版に、AIによる情報捏造を防ぐためのプロンプトを挿入した。写真: Reddit/devanxd2000。 |
しかし、欠点は、AIモデルが問題を段階的に解決しようとするにつれて、段階を踏むごとに幻覚の影響を受けやすくなることです。さらに重要なのは、モデルが思考に費やす時間が長くなるにつれて、エラーが蓄積される可能性があることです。
最新のボットはユーザーに各ステップを表示するため、ユーザーは各エラーも確認できます。また、研究者たちは、チャットボットが示す思考プロセスが、最終的な回答と実際には無関係であることが多いことを発見しました。
「システムが推論していると言っていることは、必ずしも実際に考えていることとは限らない」と、エディンバラ大学のAI研究者でアンスロピックの研究員でもあるアリオ・プラディプタ・ジェマ氏は言う。
出典: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













コメント (0)