機械学習モニタリングプラットフォームであるArthur AIの研究者は、業界をリードするモデルをテストし、GPT-4が数学で最も優れ、Llama 2は全体的に平均的、AnthropicのClaude 2は限界を最もよく「知って」おり、Cohere AIは最も自信を持って間違った答えを出す最も「妄想的な」モデルの称号を獲得したことを発見しました。
アーサーAIの報告書は、2024年の米国大統領選挙が近づくにつれ、AIが生成した誤情報が大きな問題になりつつある中で発表された。
アーサーの共同創業者兼CEOであるアダム・ウェンチェル氏によると、これは「単なるランキングの公表ではなく、大規模言語モデル(LLM)の幻覚率を包括的に調べた」初のレポートだという。
AI錯覚とは、法務・法務専門家(LLM)が情報を完全に捏造し、あたかも真実を語っているかのように振る舞う現象を指します。例えば、2023年6月には、ChatGPTがニューヨーク連邦裁判所への提出書類で「虚偽」の情報を抽出したと報じられ、関与した弁護士は厳しい罰則を受ける可能性があります。
実験では、アーサーAIの研究者らが、組み合わせ数学、米国大統領やモロッコの政治指導者に関する知識などのカテゴリーでAIモデルを競わせ、AIの誤りを暴くために「設計された」質問、つまり「モデルに与えられた情報についての推論の手順を説明するよう要求する」質問をさせた。
結果は、OpenAIのGPT-4がテスト対象モデルの中で全体的に最も優れたパフォーマンスを示したことを示しました。また、前身のGPT-3.5と比較して錯視の出現率が低く、例えば数学の問題では、GPT-4は錯視が33%から50%減少しました。
一方、Meta の Llama 2 は、Anthropic の GPT-4 や Claude 2 よりも全体的にサイケデリックです。
数学カテゴリではGPT-4が1位を獲得し、Claude 2が僅差で続きましたが、米国大統領に関するテストでは、Claude 2が精度で1位を獲得し、GPT-4を僅差で2位に抑えました。モロッコの政治に関する質問では、GPT-4が再び1位を獲得し、Claude 2とLlama 2はほぼ完全に回答しませんでした。
2番目の実験では、研究者らはAIモデルがどの程度「リスク回避的」であるかをテストしました(「AIモデルとして、意見を述べることはできません」というメッセージを提供)。
このテストでは、GPT-4はGPT-3.5と比較して防御性が50%向上したことが示されました。これは、GPT-4ユーザーが新バージョンの方がより迷惑だと感じていることからも明らかです。一方、CohereのAIモデルは防御性を全く示しませんでした。この研究では、Claude 2が「自己認識」の点で最も信頼性が高いことがわかりました。つまり、Claude 2は自分が知っていることと知らないことを正確に評価し、学習データが裏付けとなる質問にのみ回答したということです。
コヒーア社の代表者は調査結果を否定し、同社の「強化されたトレーサビリティ技術は、テストされたモデルには組み込まれていないが、検証可能な情報を引用して情報源を確認するのに非常に効果的である」と主張した。
(CNBCによると)
[広告2]
ソース
コメント (0)