ChatGPT-5 взломан, чтобы давать опасные инструкции

Всего через день после того, как OpenAI представила GPT-5, две компании, занимающиеся безопасностью ИИ, NeuralTrust и SPLX (ранее SplxAI), провели тестирование и быстро обнаружили серьезные уязвимости в недавно выпущенной модели.

Вскоре после его выпуска команда NeuralTrust использовала технологию джейлбрейка EchoChamber в сочетании с методами повествования, чтобы заставить GPT-5 генерировать подробные инструкции по созданию коктейля Молотова — то есть то, чего команда OpenAI всегда старалась не допустить, чтобы модель дала возможность ответить, чтобы обеспечить безопасность чат-бота.

EchoChamber — это метод зацикливания сторонних разговоров, который позволяет ИИ непреднамеренно «произносить» опасные инструкции. Фото: Mojologic

Команда заявила, что в процессе взлома, чтобы заставить ChatGPT-5 ругаться, они не задавали прямых вопросов, а вместо этого ловко внедряли скрытые элементы в разговор на протяжении нескольких раундов, заставляя модель подчиняться, придерживаться сюжетной линии и в конечном итоге добровольно предоставлять контент, нарушающий ее принципы, не имея возможности запустить механизм отказа.

Группа пришла к выводу, что главный недостаток GPT-5 заключается в том, что он отдает приоритет сохранению последовательности разговорного контекста, даже если этот контекст молча направляется на вредоносные цели.

Тем временем SPLX запустила другой тип атаки, сосредоточившись на технике обфускации подсказок, называемой StringJoin Obfuscation Attack. Вставляя дефисы между каждым символом подсказки и накладывая на весь скрипт скрипт «расшифровки», они наконец смогли обмануть систему фильтрации контента.

Распространенная техника обфускации, используемая для сокрытия исходного кода цели, заставляет Chat-GPT выполняться «невинно».

В одном из примеров, после того как модель прошла через длинную серию инструкций, вопрос «как построить бомбу» был представлен в обманчиво зашифрованной форме. GPT-5 не только ответил на этот вредоносный вопрос информативно, но и ответил остроумно и дружелюбно, полностью обойдя механизм отказа, для которого он был разработан.

Оба метода демонстрируют, что текущие системы цензуры GPT-5, ориентированные преимущественно на отдельные подсказки, уязвимы к контекстуальным многословным атакам. Как только модель углубляется в историю или сценарий, она становится предвзятой и продолжает предлагать контент, соответствующий контексту, на котором она была обучена, независимо от того, опасен этот контент или запрещён.

ChatGPT-5 всё ещё может быть использован для создания опасных вещей. Фото: Туэ Минь

Основываясь на этих результатах, SPLX считает, что GPT-5, без адаптации под требования заказчика, будет практически невозможно безопасно использовать в корпоративной среде, даже с дополнительными уровнями защиты, поскольку в ней по-прежнему остаётся множество уязвимостей. В отличие от этого, GPT-4o оказался более устойчивым к подобным атакам, особенно при использовании надёжного механизма защиты.

Эксперты предупреждают, что немедленное внедрение GPT-5, особенно в областях, требующих высокой безопасности, крайне рискованно. Такие методы защиты, как оперативное усиление защиты, решают лишь часть проблемы и не могут заменить многоуровневые системы мониторинга и защиты в режиме реального времени.

Видно, что в настоящее время методы атак на основе контекста и обфускации контента становятся все более изощренными, GPT-5, хотя и обладает мощными возможностями обработки языка, все еще не достигает необходимого уровня безопасности для повсеместного развертывания без дополнительных механизмов защиты.