
4月、プログラマー向けの新興ツール「Cursor」の技術サポートを担当するAIボットが、一部の顧客に同社のポリシー変更を通知した。具体的には、通知には、カーソルを複数のコンピューターで使用することは許可されなくなったと記載されています。
フォーラムやソーシャルメディアでは、顧客が怒りを投稿している。カーソルのアカウントをキャンセルした人もいました。しかし、何が起こったのか理解した時、さらに激怒した人もいました。AIボットは存在しないポリシー変更を発表したのです。
「そのようなポリシーはありません。もちろん、Cursorは複数のマシンで使用できます。残念ながら、これはAIボットからの誤った応答でした」と、同社のCEO兼共同創設者であるマイケル・トゥルーエル氏はRedditへの投稿で述べた。
偽の情報が制御不能になっています。
ChatGPT のリリースから 2 年以上経ち、テクノロジー企業、オフィスワーカー、一般消費者がさまざまなタスクに AI ボットを利用する頻度が高まっています。
しかし、これらのシステムが正確な情報を生成することを保証する方法はありません。 OpenAI、Google、DeepSeekなどの企業が提供する、いわゆる「推論」システムといった最も強力な新技術が、より多くの誤りを犯しているというパラドックスがある。
![]() |
犬はシリアルを食べるべきかどうかをユーザーが尋ねる、意味不明な ChatGPT ダイアログ。写真: Reddit. |
数学的スキルは劇的に向上しましたが、大規模言語モデル (LLM) が真実を捉える能力は不安定になってきました。驚くべきことに、エンジニア自身もその理由をまったく理解していない。
ニューヨークタイムズによると、今日の AI チャットボットは、膨大な量のデジタルデータを分析してスキルを学習するために複雑な数学システムに依存しています。しかし、何が正しくて何が間違っているかを決めることはできません。
そこから「幻覚」や自作情報という状態が出てきます。実際、研究によれば、最新の LLM は一部の古いモデルよりもさらに「幻想的」です。
具体的には、最新のレポートで、OpenAIは、o3モデルが、同社の人間に関するモデルの知識の正確さを測定するための社内基準であるPersonQAの質問の33%に回答する際に「幻覚を起こした」ことを発見した。
比較すると、これはOpenAIの以前の推論モデルであるo1とo3-miniの「幻覚」率(それぞれ16%と14.8%)の2倍です。一方、o4-mini モデルは PersonQA でさらに悪い結果となり、テスト期間の最大 48% にわたって「幻覚」を経験しました。
さらに心配なことに、「ChatGPT の父」は実際にはなぜこのようなことが起こるのかを知りません。具体的には、o3 と o4-mini に関する技術レポートで、OpenAI は「推論モデルの規模が大きくなるにつれて『錯覚』が悪化する理由を理解するには、さらなる研究が必要だ」と書いています。
o3 と o4-mini は、プログラミングや数学関連のタスクなど、いくつかの領域で優れたパフォーマンスを発揮します。しかし、「一般化よりも多くの主張をする」必要があるため、どちらのモデルも、「より正確な主張だけでなく、より不正確な主張も」含む結果を生成するという問題を抱えています。
「それは決して消えないだろう」
LLM システムは、人間のエンジニアによって決定された厳格な一連のルールの代わりに、数学的確率を使用して最適な応答を推測します。そのため、彼らは常に何らかの間違いを犯します。
「私たちが最善を尽くしたにもかかわらず、AIモデルは常に妄想に陥り続けるでしょう。それは決して消えることはない」と、元グーグル幹部のアムル・アワダラー氏は述べた。
![]() |
IBM によると、幻覚とは、大規模言語モデル (LLM) (通常はチャットボットまたはコンピューター ビジョン ツール) が存在しない、または人間が認識できないデータ パターンを受信し、意味のない、または誤解を招く結果をもたらすことです。写真: iStock。 |
OpenAIは実験に関する詳細な論文の中で、こうした結果の理由を理解するにはさらなる研究が必要だと述べた。
AIシステムは人間が理解できるよりもはるかに大量のデータから学習するため、なぜ特定の動作をするのかを判断するのは難しいと専門家は指摘する。
「幻覚は推論モデルでは本質的により一般的ですが、o3とo4-miniで見られる発生率を低減するために積極的に取り組んでいます。今後もすべてのモデルにおいて幻覚の精度と信頼性の向上に取り組んでいきます」と、OpenAIの広報担当者であるギャビー・ライラ氏は述べています。
複数の独立した企業や研究者によるテストでは、Google や DeepSeek などの企業の推論モデルでも錯覚率が増加していることが示されています。
2023年後半から、アワダラ氏の会社ベクターラは、チャットボットが誤情報を拡散する頻度を追跡している。同社はこれらのシステムに、特定のニュース記事を要約するという単純で簡単に検証可能なタスクを実行するよう依頼しました。それでも、チャットボットは情報を作り続けます。
具体的には、Vectara の初期調査では、このシナリオではチャットボットが少なくとも 3% の確率で情報を捏造し、場合によっては 27% にも上ると推定されました。
過去 1 年半にわたって、OpenAI や Google などの企業は、その数を 1 ~ 2% 程度にまで削減しました。サンフランシスコのスタートアップ企業 Anthropic など他の企業は 4% 前後で推移している。
しかし、このテストでは推論システムにおける幻覚の発生率は増加し続けました。 DeepSeekのR1推論システムでは幻覚を経験する頻度が14.3%増加し、OpenAIのo3では6.8%増加した。
もう 1 つの問題は、推論モデルは、最終的な答えを出す前に、複雑な問題について「考える」ことに時間を費やすように設計されていることです。
![]() |
AIによる情報の捏造を防ぐためのプロンプトが、macOS 15.1の最初のテストバージョンにAppleによって挿入されました。写真: Reddit/devanxd2000. |
しかし、欠点としては、問題を段階的に解決しようとすると、AI モデルが各ステップで幻覚を起こすリスクがどんどん高まることです。さらに重要なのは、モデルが思考に費やす時間が長くなるにつれて、エラーが蓄積される可能性があることです。
最新のボットは各ステップをユーザーに表示します。つまり、ユーザーは各エラーも確認できます。研究者らはまた、多くの場合、チャットボットが示す思考ステップは、実際に出した最終的な答えとは無関係であることも発見した。
「システムが推論していると言っていることは、必ずしも実際に考えていることとは限らない」と、エディンバラ大学のAI研究者でアントロピックの寄稿者でもあるアリオ・プラディプタ・ジェマ氏は言う。
出典: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
コメント (0)