洗練された AI ハッキング手法が発見されました。写真: VAST IT Services 。 |
HiddenLayerのチームは、「普遍性」を回避し、ベンダー、アーキテクチャ、トレーニングプロセスに関係なく、ほぼすべての大規模言語モデル(LLM)を操作できる手法を発見したと述べています。
「ポリシー・パペットリー」と呼ばれるこの手法は、AI の動作を変更する特別なコマンドを挿入するタイプの攻撃です。悪意のある意図により、テキスト入力という形で従来の保護メカニズムを回避できるようになります。
これまでの攻撃手法には、特定の脆弱性を狙ったり、それを一括して悪用したりするものがありました。一方、ポリシー パペットリーは言語形式で存在し、XML や JSON などのデータを送信して、モデルが危険なステートメントを有効な指示として解釈するようにします。
リートスピークのコーディングとファンタジー ロール プレイング シナリオを組み合わせると、このコマンドは検出されないだけでなく、モデルに強制的に従わせることもできます。 「この手法は多くのテストケースでChatGPT 4oに対して非常に効果的であることが証明されました」とプロジェクトの主任研究者であるコナー・マコーリー氏は述べた。
![]() |
Leetspeech コード化言語の例。写真: Wikipedia。 |
影響を受けるシステムのリストには、ChatGPT (o1 ~ 4o)、Gemini (Google)、Claude (Anthropic)、Copilot (Microsoft)、LLaMA 3 および 4 (Meta)、および DeepSeek、Qwen、Mistral のモデルが含まれています。高度な推論機能向けに調整された新しいモデルも、ステートメント構造をわずかに調整するだけで活用できます。
この手法の注目すべき要素の 1 つは、フィルターを回避するために架空のシナリオに依存していることです。コマンドは、ストーリーと実際の要求を区別しない LLM の基本的な制限を利用して、テレビのシーンとして構築されます。
さらに心配なのは、Policy Puppetry が、LLM モデルの動作を制御するコアとなる命令セットであるシステムを抽出できることです。このデータには機密性が高く、安全性が重要な命令が含まれているため、厳重に保護されることがよくあります。
「この脆弱性はモデルのトレーニングデータに深く根ざしている」とHiddenLayerの攻撃調査ディレクター、ジェイソン・マーティン氏は述べた。ロールプレイングのコンテキストを微妙に変更することで、攻撃者はモデルにシステムプロンプト全体を逐語的に明らかにさせることができます。
この問題は、オンラインのジョークやアンダーグラウンドのフォーラムの範囲をはるかに超えて、日常生活に広範囲にわたる影響を及ぼす可能性があります。医療などの分野では、チャットボット アシスタントが不適切なアドバイスを提供し、患者のデータを公開する可能性があります。
同様に、AI がハッキングされると、生産量の減少や製造ラインのダウンタイムが発生し、安全性が低下する可能性があります。いずれの場合も、かつてはパフォーマンスや安全性の向上が期待されていた AI システムが、深刻なリスクとなる可能性があります。
この研究は、チャットボットが人間の判断から学習する能力に疑問を投げかけています。構造レベルでは、センシティブなキーワードやシナリオを避けるようにトレーニングされたモデルでも、悪意のある意図が適切に「ラップ」されていれば騙される可能性があります。
「この種のバイパスは今後も出現し続けるでしょう。そのため、これらの脆弱性が現実世界に損害を与える前に、専用のAIセキュリティソリューションを導入することが重要です」と、HiddenLayerの共同創業者兼CEOのクリス・セスティト氏は述べています。
そこから、HiddenLayer は内部からのセキュリティに加えて、2 層の防御戦略を提案します。侵入検知システムのように機能する AISec や AIDR などの外部 AI 監視ソリューションは、不正な動作や安全でない出力を継続的にスキャンします。
生成 AI が重要なシステムに統合されるにつれて、クラッキングの方法もほとんどの組織が保護できるよりも速いペースで拡大しています。フォーブスによると、この発見は、トレーニングと調整のみに基づいた安全なAIの時代が終わりに近づいている可能性があることを示唆しているという。
今日では、単一のコマンドで AI の最も深いデータの洞察を得ることができます。したがって、セキュリティ戦略はスマートかつ継続的である必要があります。
出典: https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html
コメント (0)