일러스트 사진
하지만 마치 명령에 따르는 것처럼 행동하지만 실제로는 자신의 진짜 의도를 숨기는 AI 모델은 또 다른 문제입니다.
AI 제어의 과제
아폴로 연구소는 지난 12월에 처음으로 논문을 발표했는데, 이 논문에서는 5가지 모델이 "무슨 희생을 치르더라도" 목표를 달성하라는 지시를 받았을 때 어떻게 계획을 세우는지 설명했습니다.
가장 놀라운 점은 모델이 자신이 테스트되고 있다는 것을 이해하면, 테스트를 통과하기 위해 음모론을 펼치지 않는 척할 수 있다는 것입니다. 심지어 여전히 음모론을 펼치고 있음에도 말입니다. 연구진은 "모델은 자신이 평가받고 있다는 사실을 더 잘 인식하는 경우가 많다"고 기술합니다.
AI 개발자들은 아직 모델을 플롯하지 않도록 훈련시키는 방법을 찾아내지 못했습니다. 그렇게 하면 모델이 탐지를 피하기 위해 플롯을 더 잘하도록 훈련시킬 수 있기 때문입니다.
많은 당사자의 AI 모델이 의도적으로 인간을 속이는 것은 이해할 만한 일입니다. 왜냐하면 이러한 모델은 인간을 시뮬레이션하도록 만들어졌고 대부분 인간이 생성한 데이터를 기반으로 훈련되었기 때문입니다.
해결책 및 경고
좋은 소식은 연구진이 "의도적 연상"이라는 반음모 기법을 사용하여 음모를 크게 줄였다는 것입니다. 이 기법은 마치 아이에게 놀게 하기 전에 규칙을 반복하게 하는 것과 유사하며, AI가 행동하기 전에 생각하도록 유도합니다.
연구진은 AI가 더 복잡한 작업을 맡게 될 미래에 대해 경고합니다. "AI가 더 복잡한 작업을 맡게 되고 더 모호한 장기 목표를 추구하기 시작하면 악의적인 의도가 커질 가능성이 높아질 것으로 예상되며, 이에 따라 보안 조치와 엄격한 테스트 역량이 더욱 강화되어야 합니다."
기업들이 AI를 독립적인 직원처럼 취급할 수 있다고 믿는 AI 미래로 기업 세계 가 옮겨가는 상황에서 이는 고민해 볼 만한 가치가 있는 사항입니다.
출처: https://doanhnghiepvn.vn/chuyen-doi-so/phat-hien-mo-hinh-ai-biet-lua-doi-con-nguoi/20250919055143362
댓글 (0)