ハッカーがAIを使ってGoogleのGeminiを攻撃

[広告1]

BGRによると、新たな研究レポートで「Fun-Tuning」と呼ばれる驚くべき手法が公開されたとのこと。これは、AI（人工知能）自体を使って、GoogleのGeminiを含む他の高度なAIモデルを標的とした極めて効果的なプロンプト・インジェクション攻撃を自動的に作成するというものだ。

この方法により、AIの「クラッキング」がこれまで以上に高速、安価、容易になり、AI関連のサイバーセキュリティ戦争の新たな激化を示すものとなる。

悪者がAIを利用してAIを破壊する危険性

プロンプトインジェクションとは、攻撃者がAIモデルの入力データに悪意のある命令をこっそりと挿入する手法です（例：ソースコード内のコメント、Web上の隠しテキストなど）。その目的は、AIを「騙す」ことで、事前にプログラムされた安全ルールを回避させ、機密データの漏洩、虚偽情報の提供、その他の危険な動作といった深刻な結果をもたらすことです。

Hacker đang dùng chính AI để tấn công Gemini của Google - Ảnh 1. — ハッカーはAIを利用してAIを攻撃している

以前は、特に Gemini や GPT-4 などの「クローズド」モデルでこれらの攻撃を成功させるには、多くの複雑で時間のかかる手動テストが必要になることが多かったです。

しかし、「Fun-Tuning」は状況を一変させました。複数の大学の研究者チームによって開発されたこの手法は、GoogleがGeminiユーザーに無料で提供している調整用アプリケーション・プログラミング・インターフェース（API）を巧みに活用しています。

Fun-Tuningは、チューニング中のGeminiモデルの微妙な反応（例えば、データ内のエラーへの反応など）を分析することで、悪意のあるコマンドを隠すのに最も効果的な「プレフィックス」と「サフィックス」を自動的に決定します。これにより、AIが攻撃者の悪意ある意図に従う可能性が大幅に高まります。

テスト結果によると、Fun-Tuning は Gemini の一部のバージョンで最大 82% の成功率を達成しており、これは従来の攻撃方法の 30% 未満を上回る数字です。

Fun-Tuning をさらに危険なものにしているのは、その低コストです。Google のチューニング API は無料で利用できるため、効果的な攻撃を作成するための計算コストはわずか 10 ドル程度です。さらに、研究者たちは、あるバージョンの Gemini 向けに設計された攻撃が他のバージョンにも容易に適用できることを発見しました。これは、広範囲にわたる攻撃の可能性を示唆しています。

GoogleはFun-Tuningの脅威を認識していることを認めていますが、チューニングAPIの動作を変更するかどうかについてはまだコメントしていません。また、チームは防御上のジレンマを指摘しています。Fun-Tuningが悪用する情報をチューニングプロセスから削除すると、正当な開発者にとってAPIの有用性が低下する可能性があります。逆に、現状のままにしておくと、悪意のある攻撃者が悪用するための足掛かりとなり続けることになります。

Fun-Tuningの出現は、サイバー空間における対立が新たな、より複雑な段階に入ったことを明確に警告しています。AIは今や、悪意のある行為者にとって標的となるだけでなく、道具や武器にもなっています。

[広告2]
出典: https://thanhnien.vn/hacker-dung-ai-de-tan-cong-gemini-cua-google-18525033010473121.htm