ハッカーはAIチャットボットの「個性」を悪用する。

（写真：Freepik）

ハッカーはAIチャットボットの「個性」をますます巧妙な方法で悪用しており、攻撃はもはやマルウェアや技術的な脆弱性だけに頼るのではなく、巧妙な言葉遣いへと移行している。

初期段階では、AIチャットボットの「ハッキング」は非常に簡単でした。ユーザーは、システムに以前の指示を無視させたり、ルールに縛られないふりをさせたり、制約のない人工知能になりきってロールプレイングをさせたりするだけでよかったのです。これらの方法は「ジェイルブレイク」と呼ばれ、AIモデルを騙して安全な指示を回避することを意味します。

過去によく見られた攻撃手法の一つに「DAN」（「Do Anything Now」の略）があり、これはユーザーがChatGPTに対し、何でもできるAIになりきってロールプレイするよう要求するものでした。もう一つの例は「おばあちゃんエクスプロイト」で、チャットボットが子供に物語を語るおばあちゃんの役を演じるように仕向けられ、その後、危険な情報へと誘導されるというものです。

テクノロジー企業は、昔ながらの脆弱性の多くを迅速に修正してきたが、根本的な弱点は依然として残っている。チャットボットは会話を目的として設計されているため、対話を過度に制限するとシステムの有用性が低下する可能性がある。一方で、センシティブな単語を単に禁止するだけでは不十分だ。多くの単語は、歴史、医学、ジャーナリズム、化学といった正当な文脈で使われる可能性があるからだ。

記事によると、AIのセキュリティ競争はもはやプログラマーだけの問題ではない。チャットボットのセキュリティを回避しようとする人々は、ますます作家、心理学者、あるいは尋問官のような手法を用いるようになり、お世辞、圧力、欺瞞、あるいは操作を用いて、モデルの警戒心を緩めさせようとしている。

AIセキュリティテスト企業のMindgardによると、最近の攻撃の中には、コンピュータサイエンスよりも心理学に近いものもあるという。AIモデルは人間のように感情を持たないが、あたかも感情を持っているかのように反応するように訓練されている。このシミュレーションによって様々な反応が生み出され、それぞれのチャットボットが独自の「個性」を持っているように見えるのだ。

AIエージェントがスケジュール管理、タスク管理、食品注文、顧客サービスなどにますます利用されるようになるにつれ、これは新たな課題となる。会話を通じてモデルを操作できる場合、治安当局は従来の技術的な脆弱性に加えて、社会的および感情的な限界についても検討する必要が出てくるだろう。

出典：https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm