
(Фото: Freepik)
Хакеры используют «личность» чат-ботов с искусственным интеллектом все более изощренными способами, при этом атаки больше не полагаются исключительно на вредоносное ПО или технические уязвимости, а смещаются в сторону манипулятивного языка.
На ранних этапах «взлом» чат-ботов с искусственным интеллектом был довольно прост. Пользователям нужно было лишь дать системе указание игнорировать предыдущие инструкции, притвориться, что они не связаны правилами, или отыгрывать роль ничем не ограниченного искусственного интеллекта. Эти методы называются «взломом», что означает обман модели ИИ с целью обхода безопасных инструкций.
Одним из распространенных типов атак в прошлом был «DAN», сокращение от «Do Anything Now» («Сделай что угодно сейчас»), когда пользователи просили ChatGPT сыграть роль искусственного интеллекта, способного на всё. Другой пример — «бабушкин эксплойт», когда чат-бота обманом заставляют играть роль бабушки, рассказывающей детям сказки, но затем контент направляется к опасной информации.
Технологические компании быстро устранили многие устаревшие уязвимости, но основные недостатки остаются. Чат-боты предназначены для общения, поэтому чрезмерное ограничение диалога может снизить полезность системы. Между тем, простого запрета деликатных слов недостаточно, поскольку многие слова могут встречаться в вполне законных контекстах, таких как история, медицина, журналистика или химия.
Согласно статье, гонка за безопасностью ИИ перестала быть просто проблемой программистов. Те, кто пытается обойти защиту чат-ботов, все чаще напоминают писателей, психологов или следователей, используя лесть, давление, обман или манипуляции, чтобы заставить модели ослабить бдительность.
По данным компании Mindgard, занимающейся тестированием безопасности ИИ, некоторые атаки теперь больше напоминают психологию, чем информатику . Модели ИИ не обладают эмоциями, как люди, но их обучают реагировать так, как будто они есть. Эта симуляция может создавать различные типы реакций, благодаря чему каждый чат-бот, кажется, обладает собственной «личностью».
Это создает новую проблему, поскольку агенты ИИ все чаще используются для планирования, управления задачами, заказа еды или обслуживания клиентов. Если моделями можно манипулировать посредством диалога, силам безопасности придется изучить как их социальные и эмоциональные ограничения, так и традиционные технические уязвимости.
Источник: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm








Комментарий (0)