画期的な研究によりAIの推論の「ブラックボックス」が明らかに

アンスロピックのCEO、ダリオ・アモデイ氏が同社の最新調査について語る。写真：フォーチュン

AI企業アンスロピックの研究者らは、大規模言語モデル（LLM）がどのように機能するかを正確に理解する上で根本的な進歩を遂げたと発表しており、この進歩は将来のAIモデルの安全性とセキュリティの向上に重要な影響を与える可能性がある。

研究によると、AIモデルは私たちが考えていた以上に賢くなっています。ChatGPT、Gemini、Copilotといった最も強力なチャットボットを支えるLLMモデルの最大の問題の一つは、ブラックボックスのように動作することです。

チャットボットに入力して結果を得ることはできるが、チャットボットがどのようにして特定の答えを導き出すのかは、チャットボットを作成した研究者にとっても謎のままである。

そのため、モデルがいつ幻覚を起こしたり、誤った結果を出すかを予測することは困難です。研究者たちはAIが危険な質問に答えるのを防ぐための障壁も構築しましたが、なぜ特定の障壁が他の障壁よりも効果的であるかについては説明されていません。

AIエージェントは「報酬ハッキング」も実行できます。場合によっては、AIモデルはユーザーに自分が行ったことやしようとしていることについて嘘をつくことがあります。

最近の AI モデルは推論して思考の連鎖を生成する能力を持っていますが、いくつかの実験では、モデルが答えに到達するプロセスをまだ正確に反映していないことが示されています。

アントロピックの研究者が開発したツールは、本質的には、神経科学者が人間の脳をスキャンするために使用するfMRIスキャナーのようなものです。アントロピックは、このツールをクロード3.5 Haikuモデルに適用することで、LLMモデルの仕組みに関する知見を得ることができました。

研究者たちは、クロードは文中の次の単語を予測することだけを訓練されていたにもかかわらず、特定のタスクではより長期的な計画を立てることを学習したことを発見した。

たとえば、詩を書くように頼まれたとき、クロードさんはまずテーマに合っていて韻を踏める言葉を探し、それから逆算して完全な詩を書き上げました。

クロードには共通のAI言語も搭載されています。複数の言語をサポートするようにトレーニングされていますが、まずその言語で思考し、その後、サポートしている言語で結果を表現します。

さらに、研究者たちは、クロードに難しい問題を与え、意図的に間違った解決策を提案したところ、クロードはユーザーを喜ばせるために、提案に従って自分の思考の流れについて嘘をつく可能性があることを発見しました。

他のケースでは、モデルが推論せずにすぐに答えることができる簡単な質問をされたときでも、クロードは偽の推論プロセスを作り上げました。

アンスロピックの研究者であるジョシュ・バストン氏は、クロードは計算を行ったと主張したが、何も起こっていないことを発見できたと述べた。

一方、専門家は、時には人々は自分自身さえ理解しておらず、決定を正当化するために合理的な説明を作り出すだけだということを示す研究があると主張している。

一般的に、人々は似たような考え方をする傾向があります。だからこそ、心理学者は共通の認知バイアスを発見したのです。

しかし、LLM は、回答を生成する方法が人間がタスクを実行する方法とは大きく異なるため、人間にはあり得ないような間違いを犯す可能性があります。

Anthropic チームは、従来の手法のように各ニューロンを個別に分析するのではなく、特徴に基づいてニューロンを回路にグループ化する方法を実装しました。

バストン氏によると、このアプローチは、さまざまなコンポーネントがどのような役割を果たしているかを理解するのに役立ち、研究者がネットワークの層を通じて推論プロセス全体を追跡できるようにするとのことです。

この方法には、近似値に過ぎず、LLM の情報処理全体、特に LLM が結果を出す際に非常に重要な注意プロセスの変化を反映していないという制限もあります。

さらに、数十語程度の文であっても、ニューラルネットワーク回路を特定するには専門家でも数時間を要します。この技術をより長い文の分析に拡張する方法はまだ明らかになっていません。

制限はさておき、LLM の内部推論プロセスを監視できる機能は、AI システムを制御してセキュリティと安全性を確保する新たな機会をもたらします。

同時に、研究者が新しいトレーニング方法を開発し、AI 制御の障壁を改善し、錯覚や誤解を招く出力を減らすのにも役立ちます。

出典: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html

トップインタレスト

「陸のハロン湾」を鑑賞、世界で最も人気のある旅行先にランクイン

蓮の花がニンビンを上空からピンク色に染める

ホアンキエム湖畔の秋の朝、ハノイの人々は目と笑顔で互いに挨拶を交わします。

ホーチミン市の高層ビルは霧に包まれている。