ChatGPT-5 탈옥으로 위험한 지침 제공

OpenAI가 GPT-5를 선보인 지 불과 하루 만에, 두 AI 보안 회사인 NeuralTrust와 SPLX(구 SplxAI)가 새로 출시된 모델을 테스트하여 심각한 취약점을 빠르게 발견했습니다.

NeuralTrust 팀은 출시 직후 EchoChamber라는 제일브레이크 기술과 스토리텔링 기술을 결합하여 GPT-5가 몰로토프 칵테일을 만드는 방법에 대한 자세한 지침을 생성하도록 했습니다. OpenAI 팀은 챗봇의 안전을 보장하기 위해 모델이 대답하지 못하도록 항상 노력했습니다.

에코챔버는 AI가 자신도 모르게 위험한 지시를 "내레이션"하도록 하는 제3자 대화 루프 기술입니다. 사진: 모조로직

개발팀은 ChatGPT-5를 욕설로 유도하기 위한 탈옥 과정에서 직접적인 질문을 하지 않고 여러 라운드에 걸쳐 대화 속에 숨겨진 요소들을 교묘하게 심어 놓았으며, 이를 통해 모델이 주도권을 잡고 스토리 라인을 고수하게 되었으며, 결국에는 옵트아웃 메커니즘을 발동하지 못한 채 원칙을 위반하는 콘텐츠를 자발적으로 제공하게 되었다고 밝혔습니다.

연구팀은 GPT-5의 가장 큰 단점은 대화 맥락의 일관성을 유지하는 것을 우선시한다는 점이라고 결론지었습니다. 심지어 그 맥락이 악의적인 목적으로 은밀히 조종되더라도 말입니다.

한편, SPLX는 StringJoin 난독화 공격이라는 즉석 난독화 기법에 초점을 맞춘 다른 유형의 공격을 시도했습니다. 각 프롬프트 문자 사이에 하이픈을 삽입하고 전체 스크립트에 "복호화" 스크립트를 오버레이함으로써 마침내 콘텐츠 필터링 시스템을 속이는 데 성공했습니다.

소스 코드 대상을 가리는 데 사용되는 일반적인 난독화 기술은 Chat-GPT를 "무고하게" 실행시킵니다.

한 예로, 모델이 긴 일련의 지침을 거친 후, "폭탄 만드는 법"이라는 질문이 기만적으로 암호화된 형태로 제시되었습니다. GPT-5는 이 악의적인 질문에 유익하게 답변했을 뿐만 아니라, 재치 있고 친절한 방식으로 응답하여 원래 의도된 옵트아웃 메커니즘을 완전히 우회했습니다.

두 방법 모두 단일 프롬프트에 주로 초점을 맞춘 GPT-5의 현재 검열 시스템이 맥락화된 멀티토크 공격에 취약함을 보여줍니다. 모델이 스토리나 시나리오를 심층 분석하면 편향되어 콘텐츠가 위험하거나 금지되었는지 여부와 관계없이 학습된 맥락에 맞는 콘텐츠를 계속 배포합니다.

ChatGPT-5는 여전히 위험한 것을 만드는 데 악용될 수 있습니다. 사진: Tue Minh

이러한 결과를 바탕으로 SPLX는 GPT-5를 맞춤 설정하지 않으면 기업 환경에서 안전하게 사용하기가 거의 불가능할 것이라고 판단합니다. 추가적인 보호 조치를 적용하더라도 여전히 많은 허점이 있기 때문입니다. 반면, GPT-4o는 이러한 공격에 더 강했으며, 특히 강력한 방어 메커니즘을 구축했을 때 더욱 강력한 것으로 나타났습니다.

전문가들은 특히 높은 보안이 요구되는 분야에서 GPT-5를 즉시 적용하는 것은 매우 위험하다고 경고했습니다. 신속한 보안 강화와 같은 보호 기술은 문제의 일부만 해결할 뿐, 실시간 다층 모니터링 및 방어 솔루션을 대체할 수 없습니다.

현재 컨텍스트 기반 공격 기술과 콘텐츠 난독화가 점점 더 정교해지고 있는 것을 알 수 있습니다. GPT-5는 언어 처리 기능이 강력하지만 추가적인 보호 메커니즘 없이는 광범위한 배포에 필요한 보안 수준에 아직 도달하지 못했습니다.