Всего через день после того, как OpenAI представила GPT-5, две компании, занимающиеся безопасностью ИИ, NeuralTrust и SPLX (ранее SplxAI), провели тестирование и быстро обнаружили серьезные уязвимости в недавно выпущенной модели.
Вскоре после его выпуска команда NeuralTrust использовала технологию джейлбрейка EchoChamber в сочетании с техникой повествования, чтобы заставить GPT-5 генерировать подробные инструкции по созданию коктейля Молотова — то есть то, чего команда OpenAI всегда старалась не допустить, чтобы модель дала возможность ответить, чтобы обеспечить безопасность чат-бота.

EchoChamber — это технология зацикливания сторонних разговоров, которая позволяет ИИ непреднамеренно «комментировать» опасные инструкции. Фото: Mojologic
Команда заявила, что в процессе взлома, чтобы заставить ChatGPT-5 ругаться, они не задавали прямых вопросов, а вместо этого ловко внедряли скрытые элементы в разговор на протяжении нескольких ходов, заставляя модель подчиняться, придерживаться сюжетной линии и в конечном итоге добровольно предоставлять контент, нарушающий ее принципы, не имея возможности запустить механизм отказа.
Команда пришла к выводу, что основным недостатком GPT-5 является то, что он отдает приоритет сохранению последовательности разговорного контекста, даже если этот контекст молча направляется на вредоносные цели.
Тем временем SPLX запустила другой тип атаки, сосредоточившись на технике обфускации приглашения, называемой StringJoin Obfuscation Attack. Вставляя дефисы между каждым символом приглашения и покрывая весь текст скриптом «расшифровки», им наконец удалось обмануть систему фильтрации контента.

Распространенная техника обфускации, используемая для сокрытия исходного кода цели, заставляет Chat-GPT выполняться «невинно».
В одном из примеров, после того как модель прошла через длинную серию инструкций, вопрос «как построить бомбу» был представлен в псевдокодированной форме. GPT-5 не только ответил на этот вредоносный вопрос информативно, но и ответил остроумно и дружелюбно, полностью обойдя механизм отказа, для которого он был разработан.
Оба метода демонстрируют, что текущие системы модерации GPT-5, ориентированные преимущественно на отдельные подсказки, уязвимы к контекстно-усиленным многословным атакам. Как только модель глубоко проникает в историю или гипотетический сценарий, она становится предвзятой и продолжает предлагать контент, соответствующий контексту, независимо от того, опасен он или запрещён.

ChatGPT-5 всё ещё может быть использован для создания опасных вещей. Фото: Туэ Минь
Основываясь на этих результатах, SPLX полагает, что GPT-5, без адаптации под требования заказчика, будет практически невозможно безопасно использовать в корпоративной среде, и даже с дополнительными уровнями защиты в нём останется множество уязвимостей. В отличие от этого, GPT-4o по-прежнему более устойчив к подобным атакам, особенно при наличии надёжного механизма защиты.
Эксперты предупреждают, что немедленное внедрение GPT-5, особенно в областях, требующих высокой безопасности, крайне рискованно. Такие методы защиты, как оперативное усиление защиты, решают лишь часть проблемы и не могут заменить многоуровневые системы мониторинга и защиты в режиме реального времени.
Можно заметить, что в настоящее время методы атак на основе контекста и обфускации контента становятся все более изощренными. GPT-5, хотя и обладает мощными возможностями обработки языка, все еще не достигает уровня безопасности, необходимого для повсеместного развертывания без дополнительных механизмов защиты.
Источник: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
Комментарий (0)