Команды, которые могут манипулировать ИИ

Только что обнаружен сложный метод взлома с использованием искусственного интеллекта. Фото: VAST IT Services .

Команда HiddenLayer утверждает, что они обнаружили метод, который обходит «универсальность» и способен манипулировать практически любой большой языковой моделью (LLM), независимо от поставщика, архитектуры или процесса обучения.

Метод, называемый Policy Puppetry, представляет собой тип атаки, который заключается в вставке специальных команд, изменяющих поведение ИИ. Злонамеренный умысел сможет обойти традиционные механизмы защиты в виде ввода текста.

Предыдущие методы атак включали выбор конкретной уязвимости или ее массовую эксплуатацию. С другой стороны, Policy Puppetry существует в языковом формате, передающем данные, такие как XML или JSON, что позволяет модели интерпретировать опасные утверждения как допустимые инструкции.

В сочетании с кодированием на языке Leetspeak и фэнтезийными ролевыми играми эта команда не только остается незамеченной, но и заставляет модель подчиняться. «Во многих тестовых случаях эта методика оказалась чрезвычайно эффективной против ChatGPT 4o», — сказал Конор Макколи, руководитель исследовательского проекта.

Пример кодированного языка Leetspeech. Фото: Википедия.

В список затронутых систем входят ChatGPT (o1–4o), Gemini (Google), Claude (Anthropic), Copilot (Microsoft), LLaMA 3 и 4 (Meta), а также модели DeepSeek, Qwen и Mistral. Более новые модели, настроенные на расширенные возможности рассуждений, также можно использовать, внеся лишь незначительные изменения в структуру утверждений.

Одним из примечательных элементов этого метода является то, что он опирается на вымышленные сценарии для обхода фильтра. Команды построены как телевизионные сцены, эксплуатируя фундаментальное ограничение LLM, которое не различает историю и реальную просьбу.

Еще более тревожным является то, что Policy Puppetry способен извлечь систему, основной набор инструкций, которые управляют работой модели LLM. Эти данные часто тщательно охраняются, поскольку содержат конфиденциальные, критически важные для безопасности инструкции.

«Эта слабость глубоко коренится в данных обучения модели», — сказал Джейсон Мартин, директор по исследованию атак в HiddenLayer. Слегка изменив контекст ролевой игры, злоумышленник может заставить модель дословно раскрыть всю системную подсказку.

Эта проблема может иметь далеко идущие последствия для повседневной жизни, выходящие далеко за рамки интернет-шуток или подпольных форумов. В таких областях, как здравоохранение, чат-боты-помощники могут давать ненадлежащие советы, раскрывая данные пациентов.

Аналогичным образом, ИИ может быть взломан, что может привести к потере производительности или простою производственной линии, что снизит безопасность. Во всех случаях системы ИИ, от которых когда-то ожидалось повышение производительности или безопасности, могут оказаться серьезными рисками.

Это исследование ставит под сомнение способность чат-ботов учиться на человеческих суждениях. На структурном уровне модель, обученную избегать чувствительных ключевых слов или сценариев, все равно можно обмануть, если злонамеренное намерение правильно «упаковано».

«Мы будем продолжать наблюдать появление подобных обходных путей, поэтому крайне важно иметь специализированное решение безопасности на базе ИИ до того, как эти уязвимости нанесут реальный ущерб», — сказал Крис Сестито, соучредитель и генеральный директор HiddenLayer.

Исходя из этого, HiddenLayer предлагает двухуровневую стратегию защиты в дополнение к безопасности изнутри. Внешние решения для мониторинга на основе ИИ, такие как AISec и AIDR, которые действуют как системы обнаружения вторжений, будут постоянно сканировать данные на предмет злоупотреблений или небезопасных выходных данных.

Поскольку генеративный ИИ все больше интегрируется в критически важные системы, методы взлома также развиваются быстрее, чем большинство организаций могут их защитить. По данным Forbes , это открытие свидетельствует о том, что эпоха безопасного ИИ, основанного исключительно на обучении и калибровке, может подойти к концу.

Сегодня одна команда может раскрыть глубочайшие возможности ИИ в области анализа данных. Поэтому стратегии безопасности должны быть разумными и непрерывными.

Источник: https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html