Vietnam.vn - Nền tảng quảng bá Việt Nam

AI를 조작할 수 있는 명령

인공지능을 이용해 정보를 해독하고 악용하는 방법은 점점 더 정교해지고 있으며, 이로 인해 개인과 기업 모두 더 나은 보안 솔루션이 필요해지고 있습니다.

Zing NewsZing News29/04/2025

정교한 AI 해킹 방법이 방금 발견되었습니다. 사진: VAST IT 서비스 .

HiddenLayer 팀은 공급업체, 아키텍처 또는 교육 프로세스에 관계없이 거의 모든 대규모 언어 모델(LLM)을 조작할 수 있는 "보편성"을 우회하는 기술을 발견했다고 밝혔습니다.

정책 인형술이라 불리는 이 방법은 AI의 행동을 바꾸는 특수 명령을 삽입하는 공격 유형입니다. 악의적인 의도는 텍스트 입력 형태의 기존 보호 메커니즘을 우회할 수 있습니다.

이전의 공격 기술에는 특정 취약점을 표적으로 삼거나 이를 일괄적으로 악용하는 것이 포함되었습니다. 반면, 정책 인형극은 XML이나 JSON과 같은 데이터를 전송하는 언어 형식으로 존재하며, 이를 통해 모델은 위험한 진술을 유효한 지침으로 해석합니다.

리츠피크 코딩과 판타지 롤플레잉 시나리오를 결합하면 이 명령은 감지되지 않을 뿐만 아니라 모델이 명령을 따르도록 강제합니다. 프로젝트 수석 연구원인 코너 맥콜리는 "이 기술은 많은 테스트 사례에서 ChatGPT 4o에 대해 매우 효과적인 것으로 입증되었습니다."라고 말했습니다.

be khoa AI anh 1

Leetspeech로 코딩된 언어의 예. 사진: 위키피디아.

영향을 받는 시스템 목록에는 ChatGPT(o1~4o), Gemini(Google), Claude(Anthropic), Copilot(Microsoft), LLaMA 3 및 4(Meta)는 물론 DeepSeek, Qwen, Mistral의 모델도 포함됩니다. 고급 추론 기능에 맞춰 조정된 최신 모델도 진술 구조를 약간만 조정하면 활용할 수 있습니다.

이 기술의 주목할 만한 요소 중 하나는 필터를 우회하기 위해 가상 시나리오에 의존한다는 것입니다. 명령은 LLM의 근본적인 한계를 이용하여 TV 장면으로 구성되는데, LLM은 스토리와 실제 요청을 구분하지 않습니다.

더욱 우려스러운 점은 Policy Puppetry가 LLM 모델이 작동하는 방식을 제어하는 ​​핵심 명령어 집합인 시스템을 추출할 수 있다는 것입니다. 이러한 데이터는 민감하고 안전에 중요한 지침을 담고 있기 때문에 엄격하게 보호되는 경우가 많습니다.

HiddenLayer의 공격 연구 책임자인 제이슨 마틴은 "이러한 취약점은 모델의 훈련 데이터에 깊이 뿌리박혀 있습니다."라고 말했습니다. 공격자는 롤플레잉 맥락을 미묘하게 변경함으로써 모델이 전체 시스템 프롬프트를 그대로 드러내도록 만들 수 있습니다.

이 문제는 온라인 농담이나 지하 포럼의 범위를 훨씬 넘어서 일상생활에 광범위한 영향을 미칠 수 있습니다. 의료와 같은 분야에서는 챗봇 지원자가 부적절한 조언을 제공하여 환자 데이터를 노출할 수 있습니다.

마찬가지로 AI가 해킹당하면 제조 과정에서 생산량 감소나 라인 가동 중단이 발생하여 안전성이 저하될 수 있습니다. 어떤 경우든, 한때 성능이나 안전성을 향상시킬 것으로 기대되었던 AI 시스템이 심각한 위험으로 판명될 수 있습니다.

이 연구는 챗봇이 인간의 판단을 통해 학습할 수 있는 능력에 의문을 제기합니다. 구조적 수준에서 민감한 키워드나 시나리오를 피하도록 훈련된 모델이라도 악의적인 의도가 적절히 "포장"되어 있다면 여전히 속일 수 있습니다.

HiddenLayer의 공동 창립자이자 CEO인 크리스 세스티토는 "이러한 유형의 우회 공격은 앞으로도 계속 나타날 것이므로 이러한 취약점으로 인해 실제 피해가 발생하기 전에 전담 AI 보안 솔루션을 갖추는 것이 중요합니다."라고 말했습니다.

HiddenLayer는 내부 보안 외에도 2중 방어 전략을 제안합니다. AISec 및 AIDR과 같은 외부 AI 모니터링 솔루션은 침입 탐지 시스템처럼 작동하여 지속적으로 부적절한 동작이나 안전하지 않은 출력을 검사합니다.

생성적 AI가 중요 시스템에 점점 더 통합되면서, 대부분의 조직이 보호할 수 있는 속도보다 더 빠르게 해킹 방법도 확장되고 있습니다. 포브스 에 따르면, 이러한 발견은 훈련과 교정에만 기반한 안전한 AI 시대가 끝나갈 수 있음을 시사합니다.

오늘날 단 하나의 명령으로 AI의 가장 심층적인 데이터 통찰력을 얻을 수 있습니다. 그러므로 보안 전략은 현명하고 지속적이어야 합니다.

출처: https://znews.vn/cau-lenh-co-the-thao-tung-ai-post1549004.html


댓글 (0)

No data
No data

유산

수치

사업

No videos available

소식

정치 체제

현지의

제품