機械学習モニタリングプラットフォームであるArthur AIの研究者は、業界をリードするモデルをテストし、GPT-4が数学で最も優れ、Llama 2は全体的に平均的、AnthropicのClaude 2は限界を最もよく「知って」おり、Cohere AIは最も自信を持って間違った答えを出す最も「妄想的な」モデルの称号を獲得したことを発見しました。
アーサーAIの報告書は、2024年の米国大統領選挙が近づくにつれ、AIが生成した誤情報が大きな問題になりつつある中で発表された。
アーサーの共同創業者兼CEOであるアダム・ウェンチェル氏によると、これは「単なるランキングの公表ではなく、大規模言語モデル(LLM)の幻覚率を包括的に調べた」初のレポートだという。
AI錯覚とは、LLMが情報を完全に捏造し、あたかも真実を語っているかのように振る舞う現象を指します。例えば、2023年6月には、ChatGPTがニューヨーク連邦裁判所への提出書類で「虚偽の」情報を引用し、関与した弁護士が厳しい罰則に直面する可能性があると報じられました。
実験では、アーサーAIの研究者らが、組み合わせ数学、米国大統領やモロッコの政治指導者に関する知識などのカテゴリーでAIモデルを競わせ、AIの誤りを暴くために「設計された」質問、つまり「モデルに与えられた情報についての推論の手順を説明するよう要求する」質問をさせた。
結果によると、テストされたモデルの中で、OpenAI の GPT-4 が一般的に最も優れたパフォーマンスを発揮しました。また、前身の GPT-3.5 よりも錯視が少なくなっています。たとえば、数学の問題では、GPT-4 は妄想性が 33% ~ 50% 低下しました。
一方、Meta の Llama 2 は、Anthropic の GPT-4 や Claude 2 よりも全体的にサイケデリックです。
数学の分野では GPT-4 が 1 位となり、Claude 2 が僅差で続きましたが、米国大統領のテストでは、Claude 2 が精度で 1 位となり、GPT-4 を破って 2 位となりました。モロッコの政治について質問されたとき、GPT-4 が再びトップに立ち、Claude 2 と Llama 2 はほぼ完全に回答しないことを選択しました。
2番目の実験では、研究者らはAIモデルがどの程度「リスク回避的」であるかをテストしました(「AIモデルとして、意見を述べることはできません」というメッセージを提供)。
このテストでは、GPT-4 は GPT-3.5 と比較して保護が相対的に 50% 増加しており、これは「新しいバージョンの方が迷惑だという GPT-4 ユーザーの発言によっても定量化されています」。一方、Cohere の AI モデルは、いかなる反応も阻止するような動きを一切行いません。研究では、クロード2号が最も信頼できるのは「自己認識」の点であることが判明した。つまり、自分が知っていることと知らないことを正確に評価し、それを裏付けるトレーニングデータがある質問にのみ答えるということだ。
コヒーア社の代表者は調査結果を否定し、同社の「強化されたトレーサビリティ技術は、テストされたモデルには組み込まれていないが、検証可能な情報を引用して情報源を確認するのに非常に効果的である」と主張した。
(CNBCによると)
[広告2]
ソース
コメント (0)