
4月、急成長中のプログラマー向けツール「Cursor」のテクニカルサポートを担当するAIボットが、一部の顧客に会社のポリシー変更を通知しました。具体的には、複数のコンピューターでCursorを使用できなくなったという内容でした。
フォーラムやソーシャルメディアでは、顧客が怒りを露わにする投稿が相次ぎました。中にはCursorアカウントを解約した人もいました。しかし、AIボットが実際には存在しないポリシー変更を発表したという事実に気づき、さらに激怒した人もいました。
「当社にはそのようなポリシーはありません。もちろん、Cursorを複数のマシンで使用することも可能です。残念ながら、これはAI支援ボットからの不正確な応答です」と、同社のCEO兼共同創業者であるマイケル・トゥルーエル氏はRedditへの投稿で述べた。
フェイクニュースの拡散は蔓延しており、制御不能となっている。
ChatGPT の登場から 2 年以上経ち、テクノロジー企業、オフィスワーカー、一般消費者がさまざまなタスクに AI ボットを使用する頻度が高まっています。
しかし、これらのシステムが正確な情報を生成することを保証する方法はまだありません。逆説的ですが、OpenAI、Google、DeepSeekなどの企業が提供する最新かつ最も強力な技術、いわゆる「推論」システムは、実際にはより多くの誤りを生み出しています。
![]() |
ChatGPTで、あるユーザーが犬にシリアルを与えるべきかどうかを尋ねる、意味不明な会話。写真: Reddit。 |
数学的スキルの飛躍的な向上とは対照的に、大規模言語モデル(LLM)の真理把握能力はますます不安定になっています。驚くべきことに、エンジニア自身でさえその理由に全く困惑しています。
ニューヨーク・タイムズによると、今日のAIチャットボットは、膨大な数値データを分析することでスキルを学習するために、複雑な数学的システムに依存しています。しかし、何が正しくて何が間違っているかを判断することはできません。
そこから「幻覚」、あるいは自己発明性という現象が生まれます。実際、研究によると、最新世代のLLMは、一部の旧世代のLLMよりも「幻覚」を経験する頻度が高いことが分かっています。
具体的には、OpenAIは最新のレポートで、o3モデルが、同社の人間に関する知識の正確さを測定するための社内基準であるPersonQAの質問の33%に回答する際に「錯覚的」であることを発見した。
比較のために言うと、この数値はOpenAIの以前の推論モデルであるo1とo3-miniの「錯覚」率(それぞれ16%と14.8%)の2倍です。一方、o4-miniモデルはPersonQAでさらに悪い結果となり、テスト期間の48%で「錯覚」を経験しました。
さらに懸念されるのは、「ChatGPTの父」でさえ、なぜこのようなことが起こるのかを実際には理解していないことです。具体的には、OpenAIはo3とo4-miniに関する技術レポートの中で、「推論モデルをスケーリングする際に『幻覚』が悪化する理由を理解するには、さらなる研究が必要だ」と述べています。
o3とo4-miniは、プログラミングや数学の課題など、一部の分野で優れた成績を収めています。しかし、「一般的な記述よりも多くの記述を行う必要がある」ため、どちらのモデルも「より正確な記述を行う一方で、不正確な記述もより多く行う」結果となっています。
「それは決して消えることはないだろう。」
LLMシステムは、人間のエンジニアが定義した厳格なルールセットではなく、数学的な確率を用いて最適な応答を予測します。そのため、必ず一定数のエラーが発生します。
「我々の最善の努力にもかかわらず、AIモデルは常に錯覚に陥る。それは決してなくなることはない」と、元グーグル幹部のアムル・アワダラ氏は述べた。
![]() |
IBMによると、幻覚とは、大規模言語モデル(LLM)(多くの場合、チャットボットやコンピュータービジョンツール)が、存在しない、あるいは人間には認識できないデータパターンを受け取り、無意味または不正確な結果を生み出す現象です。画像: iStock。 |
OpenAIは実験に関する詳細な論文の中で、これらの結果の原因を理解するにはさらなる研究が必要だと述べた。
専門家によると、AIシステムは人間が理解できる量よりもはるかに大量のデータから学習するため、AIシステムがなぜそのように動作するのかを判断するのは非常に困難になります。
「この錯視は推論モデルでは本質的により一般的ですが、o3とo4-miniで見られる割合を減らすために積極的に取り組んでいます。精度と信頼性を向上させるため、すべてのモデルでこの錯視を研究し続けます」とOpenAIの広報担当者、ギャビー・ライラ氏は述べています。
数多くの独立系企業や研究者によるテストでは、Google や DeepSeek などの企業の推論モデルでも幻覚の発生率が上昇していることが示されています。
アワダラ氏の会社であるVectaraは、2023年後半からチャットボットが偽情報を拡散する頻度を監視してきました。同社はこれらのシステムに、特定の記事を要約するという、単純で検証しやすいタスクを与えました。しかし、それでもチャットボットは執拗に情報を捏造し続けました。
具体的には、Vectara の初期調査では、この仮説に基づくと、チャットボットが少なくとも 3% のケースで情報を捏造し、場合によっては 27% にも上ると推定されました。
過去1年半で、OpenAIやGoogleといった企業はこの数字を1~2%程度にまで削減しました。一方、サンフランシスコのスタートアップ企業Anthropicのような企業は、4%前後で推移しています。
しかし、この実験では、推論システムにおける幻覚の発生率は引き続き増加しました。DeepSeekのR1推論システムでは幻覚の発生率が14.3%増加したのに対し、OpenAIのo3では6.8%増加しました。
もう 1 つの問題は、推論モデルは、最終的な答えに到達する前に複雑な問題について「考える」ことに時間を費やすように設計されていることです。
![]() |
Appleは、macOS 15.1の最初のベータ版に、AIによる情報の捏造を防ぐためのプロンプトを組み込んだ。画像: Reddit/devanxd2000。 |
しかし、問題を段階的に解決しようとすると、AIモデルが各ステップで幻覚に遭遇する可能性が高くなるという欠点があります。さらに重要なのは、モデルが思考に費やす時間が長くなるにつれて、エラーが蓄積される可能性があることです。
最新のボットは各ステップをユーザーに表示するため、ユーザーは各エラーも確認できます。また、研究者たちは、チャットボットが示す思考プロセスが、最終的な回答と実際には無関係であることが多いことを発見しました。
「システムが推論していると主張していることは、必ずしも実際に考えていることとは限らない」と、エディンバラ大学のAI研究者でAnthropicの寄稿者でもあるアリオ・プラディプタ・ジェマ氏は言う。
出典: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










コメント (0)