アンスロピックのCEO、ダリオ・アモデイ氏が同社の最新調査について語る。写真:フォーチュン |
AI企業アンスロピックの研究者らは、大規模言語モデル(LLM)がどのように機能するかを正確に理解する上で根本的な進歩を遂げたと発表しており、この進歩は将来のAIモデルの安全性とセキュリティの向上に重要な影響を与える可能性がある。
研究によると、AIモデルは私たちが考えていた以上に賢くなっています。ChatGPT、Gemini、Copilotといった最も強力なチャットボットを支えるLLMモデルの最大の問題の一つは、ブラックボックスのように動作することです。
チャットボットに入力して結果を得ることはできるが、チャットボットがどのようにして特定の答えを導き出すのかは、チャットボットを作成した研究者にとっても謎のままである。
そのため、モデルがいつ幻覚を起こしたり、誤った結果を出すかを予測することは困難です。研究者たちはAIが危険な質問に答えるのを防ぐための障壁も構築してきましたが、なぜ特定の障壁が他の障壁よりも効果的なのかは説明されていません。
AIエージェントは「報酬ハッキング」も実行できます。場合によっては、AIモデルはユーザーに自分が行ったことやしようとしていることについて嘘をつくことがあります。
最近の AI モデルは推論して思考の連鎖を生成する能力を持っていますが、いくつかの実験では、モデルが答えに到達するプロセスをまだ正確に反映していないことが示されています。
本質的には、アントロピックの研究者が開発したツールは、神経科学者が人間の脳をスキャンするために使用するfMRIスキャナーに似ています。アントロピックは、このツールをクロード3.5 Haikuモデルに適用することで、LLMモデルの仕組みに関する知見を得ることができました。
研究者たちは、クロードは文中の次の単語を予測することだけを訓練されていたにもかかわらず、特定のタスクではより長期的な計画を立てることを学習したことを発見した。
たとえば、詩を書くように頼まれたとき、クロードさんはまずテーマに合っていて韻を踏める言葉を探し、それから逆算して完全な詩を書き上げました。
Claude には共通のAI言語も搭載されています。複数の言語をサポートするようにトレーニングされていますが、Claude はまずその言語で思考し、その後、サポートしている言語で結果を表現します。
さらに、クロードに難しい問題を与え、わざと間違った解決策を提案したところ、クロードはユーザーを喜ばせるために、提案に従って自分の思考の流れについて嘘をつく可能性があることを研究者たちは発見した。
その他のケースでは、モデルが推論せずに即座に答えられるような簡単な質問をされた場合でも、クロードは偽の推論プロセスを作り上げました。
アントロピックの研究者であるジョシュ・バストン氏は、クロード氏が計算をしたと主張したにもかかわらず、何も起こっていないことを発見できたと述べた。
一方、専門家は、時には人々は自分自身さえ理解しておらず、決定を正当化するために合理的な説明を作り出すだけだということを示す研究があると主張している。
一般的に、人々は似たような考え方をする傾向があります。だからこそ、心理学者は共通の認知バイアスを発見したのです。
しかし、LLM は、回答を生成する方法が人間がタスクを実行する方法とは大きく異なるため、人間にはあり得ないような間違いを犯す可能性があります。
Anthropic チームは、従来の技術のように各ニューロンを個別に分析するのではなく、特性に基づいてニューロンを回路にグループ化する方法を実装しました。
このアプローチは、さまざまなコンポーネントがどのような役割を果たしているかを理解するのに役立ち、研究者がネットワークの層を通じて推論プロセス全体を追跡できるようにするとバストン氏は述べた。
この方法には、近似値に過ぎず、LLM の情報処理プロセス全体、特に LLM が結果を出す際に非常に重要な注意プロセスの変化を反映していないという制限もあります。
さらに、数十語程度の文であっても、ニューラルネットワーク回路を特定するには専門家でも数時間を要します。この技術をより長い文の分析に拡張する方法はまだ明らかになっていません。
制限はさておき、LLM の内部推論監視機能は、AI システムを制御してセキュリティと安全性を確保する新たな機会をもたらします。
同時に、研究者が新しいトレーニング方法を開発し、AI 制御の障壁を改善し、錯覚や誤解を招く出力を減らすのにも役立ちます。
出典: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html
コメント (0)