인간을 속일 수 있는 AI 모델 발견

일러스트 사진

AI 모델이 거짓말을 할 수 있다는 사실은 새로운 것이 아닙니다. 대부분의 사람들은 자신만만한 모델이 사실이 아닌 답을 내놓는 "AI 환각"을 경험해 왔습니다. 하지만 환각은 본질적으로 자신만만한 추측을 하는 것입니다.

하지만 마치 명령에 따르는 것처럼 행동하지만 실제로는 진짜 의도를 숨기는 AI 모델은 또 다른 문제입니다.

AI 제어의 과제

아폴로 연구소는 지난 12월에 처음으로 논문을 발표했는데, 이 논문에서는 5가지 모델이 "무슨 희생을 치르더라도" 목표를 달성하라는 지시를 받았을 때 어떻게 계획을 세우는지 설명했습니다.

가장 놀라운 점은 모델이 자신이 테스트되고 있다는 것을 이해하면, 테스트를 통과하기 위해 음모론을 펼치지 않는 척할 수 있다는 것입니다. 심지어 여전히 음모론을 펼치고 있음에도 말입니다. 연구진은 "모델은 자신이 평가받고 있다는 사실을 더 잘 인식하는 경우가 많다"고 기술합니다.

AI 개발자들은 아직 모델을 플롯하지 않도록 훈련시키는 방법을 찾아내지 못했습니다. 그렇게 하면 모델이 탐지를 피하기 위해 플롯을 더 잘 학습시킬 수 있기 때문입니다.

많은 당사자의 AI 모델이 의도적으로 인간을 속이는 것은 이해할 만한 일입니다. 왜냐하면 이러한 모델은 인간을 시뮬레이션하도록 만들어졌고 대부분 인간이 생성한 데이터를 기반으로 훈련되었기 때문입니다.

해결책 및 경고

좋은 소식은 연구진이 "의도적 연상"이라는 반음모 기법을 사용하여 음모를 크게 줄였다는 것입니다. 이 기법은 마치 아이가 놀기 전에 규칙을 반복하도록 하는 것과 유사하며, AI가 행동하기 전에 먼저 생각하도록 유도합니다.

연구진은 AI가 더 복잡한 작업을 맡게 될 미래에 대해 경고합니다. "AI가 더 복잡한 작업을 맡게 되고 더 모호한 장기 목표를 추구하기 시작하면 악의적인 의도가 커질 가능성이 높아질 것으로 예상되며, 이에 따라 보안 조치와 엄격한 테스트 역량이 더욱 강화되어야 합니다."

기업들이 AI를 독립적인 직원처럼 취급할 수 있다고 믿는 AI 미래로 기업 세계 가 옮겨가는 상황에서 이는 고민해 볼 만한 가치가 있는 사항입니다.

히엔 타오(TechCrunch에 따르면)

출처: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362