
4月、プログラマー向けの新興ツールであるCursorのテクニカルサポートを担当するAIボットが、一部の顧客に対し、同社のポリシー変更を通知し、具体的には、Cursorを複数のコンピューターで使用することはできなくなったと伝えた。
顧客はフォーラムやソーシャルメディアに怒りを投稿し、中にはCursorのアカウントを解約した人もいました。しかし、AIボットが実際には存在しないポリシー変更を報告していたことに気づいたとき、さらに激怒した人もいました。
「そのようなポリシーはありません。もちろん、Cursorは複数のマシンで使用できます。残念ながら、これはAIボットからの誤った応答でした」と、同社のCEO兼共同創設者であるマイケル・トゥルーエル氏はRedditへの投稿で述べた。
偽の情報が制御不能になっています。
ChatGPT のリリースから 2 年以上経ち、テクノロジー企業、オフィスワーカー、一般消費者がさまざまなタスクに AI ボットを利用する頻度が高まっています。
しかし、これらのシステムが正確な情報を生成しているかどうかを保証する方法はありません。逆説的に、OpenAI、Google、DeepSeekといった企業が提供する「推論」システムと呼ばれる最も強力な新技術は、より多くの誤りを犯しています。
![]() |
ChatGPTでユーザーが犬にシリアルを食べさせるべきか尋ねる、意味不明な会話。写真: Reddit |
数学的スキルが劇的に向上する一方で、大規模言語モデル(LLM)が真実を捉える能力はますます不安定になっています。驚くべきことに、エンジニア自身でさえ、その理由を全く理解していません。
ニューヨーク・タイムズによると、今日のAIチャットボットは、膨大なデジタルデータを分析することでスキルを学習するために、複雑な数学的システムに依存しています。しかし、何が正しくて何が間違っているかを判断することはできません。
そこから「幻覚」、つまり情報の自己捏造状態が現れます。実際、研究によると、最新世代のLLMは、一部の旧モデルよりも「幻覚」に悩まされることが多いことが分かっています。
具体的には、最新のレポートで、OpenAIは、o3モデルが、同社の人間に関するモデルの知識の正確さを測定するための社内基準であるPersonQAの質問の33%に回答する際に「幻覚を起こした」ことを発見した。
比較すると、これはOpenAIの以前の推論モデルであるo1とo3-miniの「幻覚」率の2倍に相当します。o1とo3-miniはそれぞれ16%と14.8%の確率で幻覚に悩まされました。一方、o4-miniモデルはPersonQAでさらに悪いパフォーマンスを示し、48%の確率で幻覚に悩まされました。
さらに懸念されるのは、「ChatGPTの父」でさえ、なぜこのようなことが起こるのかを実際には理解していないことです。具体的には、o3とo4-miniに関する技術レポートの中で、OpenAIは「推論モデルのスケールアップに伴って『錯覚』が悪化する理由を理解するには、さらなる研究が必要だ」と述べています。
o3とo4-miniは、プログラミングや数学関連のタスクなど、いくつかの分野で優れた成績を収めました。しかし、「一般化よりも多くの記述を行う」必要があったため、どちらのモデルも「正しい記述は増えるが、誤った記述も増える」という問題を抱えていました。
「それは決して消えないだろう」
LLMシステムは、人間のエンジニアが定めた厳格なルールセットではなく、数学的確率を用いて最適な応答を推測します。そのため、必ず何らかの誤りが生じます。
「私たちが最善を尽くしたにもかかわらず、AIモデルは常に妄想に陥り続けるでしょう。それは決して消えることはない」と、元グーグル幹部のアムル・アワダラー氏は述べた。
![]() |
IBMによると、幻覚とは、大規模言語モデル(LLM)(通常はチャットボットやコンピュータービジョンツール)が、存在しない、あるいは人間には認識できないデータパターンを受け取り、意味のない、あるいは誤解を招くような結果をもたらすことを指します。写真: iStock。 |
OpenAIは実験に関する詳細な論文の中で、こうした結果の理由を理解するにはさらなる研究が必要だと述べた。
AIシステムは人間が理解できるよりもはるかに大量のデータから学習するため、なぜ特定の動作をするのかを判断するのは難しいと専門家は指摘する。
「幻覚は推論モデルでは本質的により一般的ですが、o3とo4-miniで見られる発生率を低減するために積極的に取り組んでいます。今後もすべてのモデルにおいて幻覚の精度と信頼性の向上に取り組んでいきます」と、OpenAIの広報担当者であるギャビー・ライラ氏は述べています。
複数の独立した企業や研究者によるテストでは、Google や DeepSeek などの企業の推論モデルでも錯覚率が増加していることが示されています。
アワダラ氏の会社ベクターラは、2023年後半からチャットボットが偽情報を拡散する頻度を追跡してきた。同社はチャットボットに、特定のニュース記事を要約するという単純で検証しやすいタスクを実行させた。しかし、それでもチャットボットは情報の捏造を続けた。
具体的には、Vectara の初期調査では、このシナリオではチャットボットが少なくとも 3% の確率で情報を捏造し、場合によっては 27% にも上ると推定されました。
過去1年半で、OpenAIやGoogleといった企業はこの数字を1~2%程度にまで削減しました。一方、サンフランシスコのスタートアップ企業Anthropicのような企業は、4%前後で推移しています。
しかし、このテストでは、推論システムにおける幻覚の発生率は引き続き増加しました。DeepSeekのR1推論システムでは幻覚の発生頻度が14.3%増加し、OpenAIのo3では6.8%増加しました。
もう 1 つの問題は、推論モデルは、最終的な答えを出す前に、複雑な問題について「考える」ことに時間を費やすように設計されていることです。
![]() |
Appleは、macOS 15.1の最初のテスト版に、AIによる情報捏造を防ぐためのプロンプトを挿入した。写真: Reddit/devanxd2000。 |
しかし、欠点は、AIモデルが問題を段階的に解決しようとするにつれて、段階を踏むごとに幻覚の影響を受けやすくなることです。さらに重要なのは、モデルが思考に費やす時間が長くなるにつれて、エラーが蓄積される可能性があることです。
最新のボットはユーザーに各ステップを示し、ユーザーは各エラーも確認できます。また、研究者たちは、多くの場合、チャットボットが示す思考プロセスは、最終的な回答とは実際には無関係であることも発見しました。
「システムが推論していると言っていることは、必ずしも実際に考えていることとは限らない」と、エディンバラ大学のAI研究者でアントロピックの寄稿者でもあるアリオ・プラディプタ・ジェマ氏は言う。
出典: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
コメント (0)