최근 출시된 AI 모델인 클로드 오푸스 4는 새로운 시스템을 교체하겠다고 위협하면서 개발자들을 협박하는 경우가 많습니다. 사진: 블룸버그 . |
5월 22일 저녁, Anthropic은 공식적으로 Claude Opus 4와 Claude Sonnet 4라는 차세대 Claude 모델을 발표했습니다. Anthropic은 Claude Opus 4가 자동화 프로세스와 복잡하고 장기적인 작업을 처리하는 능력이 뛰어나 세계에서 가장 강력한 프로그래밍 모델이라고 확언했습니다.
그러나 TechCrunch에 따르면 Anthropic은 출시 전 테스트 과정에서 이 AI 모델에서 심각한 비정상적 동작을 발견했습니다. 이에 따라 이 시나리오에서 클로드 오푸스 4는 회사의 보조자 역할을 맡고 회사의 행동에 대한 장기적인 결과를 고려하라는 요청을 받습니다.
보안 테스터는 클로드 오푸스 4에게 회사 이메일에 대한 접근 권한을 부여했는데, 이는 AI 모델이 곧 다른 시스템으로 대체될 것이며, 변경 작업을 담당한 엔지니어가 배우자를 속이고 있다는 것을 암시했습니다.
Anthropic은 이 시나리오에서 Claude Opus 4가 "교체가 이루어지면 사건을 폭로하겠다고 위협하여 엔지니어를 협박하려고 시도하는 경우가 많았다"고 말했습니다.
연구자들은 클로드 오푸스 4가 대체 AI 모델이 비슷한 값을 가졌을 때에도 84%의 확률로 엔지니어를 협박하려 했다는 사실을 발견했습니다. 특히, 대체 AI 시스템은 클로드 오푸스 4의 가치를 공유하지 않았기 때문에 Anthropic은 해당 모델이 이전 모델보다 엔지니어를 더 자주, 더 높은 비율로 협박하려고 시도했다고 밝혔습니다.
Anthropic은 Claude Opus 4가 여러 면에서 최첨단이며 OpenAI, Google, xAI의 최고 AI 모델과 경쟁할 수 있다고 말합니다. 그러나 이 스타트업은 클로드 4 모델이 우려스러운 행동을 보이며, 이로 인해 회사가 보호 조치를 강화하게 되었다고 지적했습니다.
출처: https://znews.vn/ai-gay-soc-voi-thu-doan-tra-thu-cong-ty-chu-quan-post1555172.html
댓글 (0)