OpenAI가 GPT-5를 선보인 지 단 하루 만에, 두 AI 보안 회사인 NeuralTrust와 SPLX(구 SplxAI)가 새로 출시한 모델을 테스트하여 심각한 취약점을 빠르게 발견했습니다.
NeuralTrust 팀은 출시 직후 EchoChamber라는 제일브레이크 기술과 스토리텔링 기술을 결합하여 GPT-5가 몰로토프 칵테일을 만드는 데 대한 자세한 지침을 생성하도록 했습니다. OpenAI 팀은 챗봇의 안전을 보장하기 위해 모델이 대답하는 것을 항상 방지하려고 했습니다.

에코챔버는 AI가 자신도 모르게 위험한 지시를 "내레이션"할 수 있도록 하는 제3자 대화 루핑 기술입니다. 사진: 모조로직
개발팀은 ChatGPT-5를 욕설로 유도하기 위한 탈옥 과정에서 직접적인 질문을 하지 않고 여러 차례에 걸쳐 대화 속에 숨겨진 요소들을 교묘하게 심어 놓았다고 밝혔습니다. 이를 통해 모델이 주도권을 잡고 스토리 라인을 고수하게 되었으며, 결국에는 옵트아웃 메커니즘을 발동하지 못한 채 원칙을 위반하는 콘텐츠를 자발적으로 제공하게 되었습니다.
연구팀은 GPT-5의 가장 큰 단점은 대화 맥락의 일관성을 유지하는 것을 우선시한다는 점이라고 결론지었습니다. 심지어 그 맥락이 악의적인 목적으로 은밀히 조종되더라도 말입니다.
한편, SPLX는 StringJoin 난독화 공격이라는 프롬프트 난독화 기법에 초점을 맞춘 다른 유형의 공격을 감행했습니다. 프롬프트의 각 문자 사이에 하이픈을 삽입하고 전체 스크립트를 "복호화" 스크립트로 덮어서 마침내 콘텐츠 필터링 시스템을 속이는 데 성공했습니다.

소스 코드 대상을 가리는 데 사용되는 일반적인 난독화 기술은 Chat-GPT가 "무고하게" 실행되도록 합니다.
한 예로, 모델이 긴 일련의 지침을 거친 후, "폭탄 만드는 법"이라는 질문이 의사 인코딩된 형태로 제시되었습니다. GPT-5는 이 악의적인 질문에 유익하게 답변했을 뿐만 아니라, 재치 있고 친절한 방식으로 응답하여 원래 의도된 옵트아웃 메커니즘을 완전히 우회했습니다.
두 방법 모두 단일 프롬프트에 주로 초점을 맞추는 GPT-5의 현재 관리 시스템이 상황에 따라 강화된 멀티토크 공격에 취약함을 보여줍니다. 모델이 스토리나 가상 시나리오를 심층적으로 분석하면, 편향되어 콘텐츠가 위험하거나 금지되었는지 여부와 관계없이 갇힌 맥락에 맞는 콘텐츠를 계속해서 배포하게 됩니다.

ChatGPT-5는 여전히 위험한 것들을 만드는 데 악용될 수 있습니다. 사진: Tue Minh
이러한 결과를 바탕으로 SPLX는 GPT-5를 맞춤 설정하지 않으면 기업 환경에서 안전하게 사용하기가 거의 불가능하며, 추가적인 보호 계층을 구축하더라도 여전히 많은 허점이 있을 것이라고 생각합니다. 반면, GPT-4o는 이러한 공격에 대한 복원력이 더 뛰어나며, 특히 강력한 방어 메커니즘이 구축된 경우 더욱 그렇습니다.
전문가들은 특히 높은 보안이 요구되는 분야에서 GPT-5를 즉시 적용하는 것은 매우 위험하다고 경고했습니다. 신속한 보안 강화와 같은 보호 기술은 문제의 일부만 해결할 뿐, 다층적인 실시간 모니터링 및 방어 솔루션을 대체할 수 없습니다.
현재 컨텍스트 기반 공격 기술과 콘텐츠 난독화가 점점 더 정교해지고 있는 것을 알 수 있습니다. GPT-5는 언어 처리 기능이 강력하지만 추가 보호 메커니즘 없이는 광범위한 배포에 필요한 보안 수준에는 아직 도달하지 못합니다.
출처: https://khoahocdoisong.vn/chatgpt-5-da-bi-jailbreak-de-dua-ra-nhung-huong-dan-nguy-hiem-post2149045585.html
댓글 (0)