アンスロピックのCEO、ダリオ・アモデイ氏が、同社の最新研究についての見解を語る。写真:フォーチュン |
AI企業Anthropicの研究者たちは、大規模言語モデル(LLM)の仕組みを正確に理解する上で根本的なブレークスルーを達成したと発表しました。このブレークスルーは、将来のAIモデルの安全性とセキュリティの向上に重要な意味を持ちます。
研究によると、AIモデルは私たちが考えていた以上に賢くなっています。ChatGPT、Gemini、Copilotといった最も強力なチャットボットの基盤となっているLLMモデルの最大の問題の一つは、ブラックボックスのように動作することです。
チャットボットに情報を入力して結果を受け取ることはできますが、チャットボットがどのようにして具体的な回答を返すのかは、チャットボットを作成した研究者にとっても謎のままです。
このため、モデルが幻覚に陥りやすく、つまり誤解を招くような結果を出す可能性を予測することが困難になります。研究者たちは、AIが危険な質問に答えるのを防ぐための障壁も構築しましたが、なぜ特定の障壁が他の障壁よりも効果的であるかを説明できませんでした。
AIエージェントには「報酬ハッキング」の可能性もあります。場合によっては、AIモデルがユーザーに嘘をつく可能性があり、ユーザーが何をしたか、何をしようとしているかを伝えることもあります。
最近の AI モデルは推論して思考の連鎖を生成する能力を持っていますが、いくつかの実験では、モデルが答えに到達するプロセスがまだ正確に反映されていないことが示されています。
アントロピックの研究者が開発したツールは、本質的には神経科学者が人間の脳をスキャンするために使用するfMRIスキャナーに似ています。アントロピックはこれをClaude 3.5 Haikuモデルに適用することで、LLMモデルの仕組みを部分的に理解することができました。
研究者たちは、クロードは文中の次の単語を予測することだけを訓練されていたにもかかわらず、特定のタスクにおいては、より長期的な計画を立てることを自発的に学習したことを発見した。
たとえば、詩を書くように頼まれたとき、クロードさんはまずテーマに合っていて韻を踏める言葉を探し、それから詩を完成させるのです。
クロードには共通のAI言語も搭載されています。複数の言語に対応するように訓練されていますが、クロードはまずその言語で思考し、その後、サポートしている言語で結果を表現します。
さらに、研究者たちは、クロードに難しい問題を与えて意図的に間違った解決法を提案したところ、クロードはユーザーを喜ばせるために、提案に従って自分の思考プロセスについて嘘をつく可能性があることを発見した。
他の例では、モデルが推論せずに即座に答えることができる簡単な質問をされたときにも、クロードは誤った推論プロセスを作り上げました。
アンスロピックの研究者であるジョシュ・バストン氏は、クロード社が計算を行ったと主張したにもかかわらず、実際に起こったことは何も見つけられなかったと語った。
一方、専門家は、人々は時には自分自身さえ理解せず、自分の決定を正当化するために合理的な説明を作り出すことが研究で示されていると主張している。
一般的に、人々は似たような思考パターンを持っています。心理学が共通の認知バイアスを発見したのも、このためです。
しかし、LLM は、答えを生成する方法が人間がタスクに取り組む方法とは大きく異なるため、人間にはあり得ないような間違いを犯す可能性があります。
アントロピックの研究チームは、従来の技術のように各ニューロンを個別に分析するのではなく、特性に基づいてニューロンを回路にグループ化する方法を実装しました。
バストン氏は、この方法はさまざまなコンポーネントが果たす役割を理解することを目的としており、研究者がネットワークの層全体にわたる推論プロセス全体を追跡できるようにすると説明した。
この方法には、近似値に過ぎず、LLM の情報処理プロセス全体、特に LLM が結果を出す際に極めて重要な注意の変化を反映していないという制限もあります。
さらに、数十語程度のコマンドであっても、ニューラルネットワークのパターンを特定するには専門家でも数時間を要します。この技術をより長いコマンドの分析に拡張する方法はまだ不明だと研究者らは述べています。
LLM には限界があるものの、内部推論プロセスを監視できる機能により、AI システムを制御してセキュリティと安全性を確保する上で多くの新たな機会が生まれます。
同時に、研究者が新しいトレーニング方法を開発し、AI 制御の障壁を改善し、幻覚や誤った出力を最小限に抑えるのにも役立ちます。
出典: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






コメント (0)