Хакери використовують «особистість» чат-ботів зі штучним інтелектом.

(Фото: Freepik)

Хакери використовують «особистість» чат-ботів зі штучним інтелектом дедалі витонченішими способами, а атаки більше не покладаються виключно на шкідливе програмне забезпечення чи технічні вразливості, а переходять до маніпулятивної мови.

На ранніх етапах «злом» чат-ботів зі штучним інтелектом був досить простим. Користувачам потрібно було лише наказати системі ігнорувати попередні інструкції, вдавати, що вони не зв'язані правилами, або грати роль необмеженого штучного інтелекту. Ці методи називаються «джейлбрейком», що означає обман моделі штучного інтелекту, щоб обійти безпечні інструкції.

Одним із поширених типів атак у минулому була «DAN», скорочення від «Do Anything Now» («Зроби що завгодно зараз»), під час якої користувачі просили ChatGPT розіграти роль штучного інтелекту, здатного робити що завгодно. Іншим прикладом є «експлойт бабусі», коли чат-бота обманом змушують грати роль бабусі, яка розповідає дітям історії, але потім контент перенаправляється на небезпечну інформацію.

Технологічні компанії швидко виправили багато старомодних вразливостей, але основні недоліки залишаються. Чат-боти розроблені для розмов, тому надмірне обмеження діалогу може зменшити корисність системи. Тим часом простої заборони делікатних слів недостатньо, оскільки багато слів можуть зустрічатися в легітимних контекстах, таких як історія, медицина, журналістика чи хімія.

Згідно зі статтею, перегони за безпеку штучного інтелекту вже не є лише проблемою програмістів. Ті, хто прагне обійти безпеку чат-ботів, дедалі більше нагадують письменників, психологів чи слідчих, використовуючи лестощі, тиск, обман чи маніпуляції, щоб змусити моделі знизити пильність.

За даними компанії Mindgard, що займається тестуванням безпеки штучного інтелекту, деякі атаки зараз більше нагадують психологію, ніж інформатику . Моделі штучного інтелекту не мають емоцій, як люди, але вони навчені реагувати так, ніби вони їх мають. Таке моделювання може створювати різні типи реакцій, завдяки чому кожен чат-бот здається таким, ніби має власну «особистість».

Це створює новий виклик, оскільки агенти штучного інтелекту все частіше використовуються для планування, управління завданнями, замовлення їжі або обслуговування клієнтів. Якщо моделями можна маніпулювати за допомогою розмови, силам безпеки доведеться вивчити як свої соціальні, так і емоційні обмеження, окрім традиційних технічних вразливостей.

Джерело: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm