해커들은 AI 챗봇의 "인격"을 악용합니다.

(사진: 프리픽)

해커들은 인공지능 챗봇의 "개성"을 점점 더 정교한 방식으로 악용하고 있으며, 공격은 더 이상 악성코드나 기술적 취약점에만 의존하지 않고 조작적인 언어를 사용하는 방향으로 전환하고 있습니다.

초창기에는 AI 챗봇을 "해킹"하는 것이 상당히 간단했습니다. 사용자는 시스템에게 이전 지시를 무시하도록 하거나, 규칙에 얽매이지 않는 척하거나, 제약 없는 인공지능인 것처럼 행동하도록 지시하기만 하면 되었습니다. 이러한 방법을 "탈옥(jailbreaking)"이라고 하는데, 이는 AI 모델을 속여 안전한 지시를 우회하는 것을 의미합니다.

과거에 두드러진 공격 유형 중 하나는 "DAN(Do Anything Now)"으로, 사용자가 ChatGPT에게 무엇이든 할 수 있는 AI인 척 연기해 달라고 요청하는 방식입니다. 또 다른 예로는 "할머니 익스플로잇"이 있는데, 챗봇이 아이들에게 이야기를 들려주는 할머니 역할을 하도록 속인 후, 위험한 정보로 유도하는 방식입니다.

기술 기업들은 구식 취약점들을 신속하게 해결했지만, 근본적인 약점은 여전히 남아 있습니다. 챗봇은 대화를 위해 설계되었기 때문에 대화를 지나치게 제한하면 시스템의 유용성이 떨어질 수 있습니다. 또한, 단순히 민감한 단어를 금지하는 것만으로는 충분하지 않습니다. 역사, 의학, 언론, 화학과 같은 합법적인 맥락에서도 많은 단어가 사용될 수 있기 때문입니다.

기사에 따르면, AI 보안 경쟁은 더 이상 프로그래머만의 문제가 아닙니다. 챗봇 보안을 우회하려는 사람들은 아첨, 압력, 기만, 조작 등을 이용하여 모델의 경계심을 낮추는 작가, 심리학자, 심문관과 점점 더 유사해지고 있습니다.

AI 보안 테스트 회사인 마인드가드에 따르면, 최근 일부 공격은 컴퓨터 과학 보다는 심리학에 더 가깝다고 합니다. AI 모델은 인간처럼 감정을 가지고 있지는 않지만, 마치 감정이 있는 것처럼 반응하도록 훈련됩니다. 이러한 시뮬레이션을 통해 다양한 유형의 반응이 만들어지고, 각 챗봇이 마치 고유한 "성격"을 가진 것처럼 보이게 됩니다.

인공지능 에이전트가 일정 관리, 작업 관리, 음식 주문, 고객 서비스 등에 점점 더 많이 사용됨에 따라 새로운 과제가 발생하고 있습니다. 만약 모델이 대화를 통해 조작될 수 있다면, 보안 당국은 기존의 기술적 취약점뿐만 아니라 사회적, 정서적 한계까지도 면밀히 검토해야 할 것입니다.

출처: https://vtv.vn/tin-tac-khai-thac-tinh-cach-cua-chatbot-ai-10026052519025336.htm