
Anthropic은 AI 반응을 왜곡하기 위해 악성 데이터를 삽입하는 것이 상상보다 훨씬 쉽다고 경고합니다. - 사진: FREEPIK
챗봇 클로드를 개발한 인공지능 회사 앤트로픽은 대규모 언어 모델(LLM)을 "포이즈닝"하는 것, 즉 악성 데이터를 삽입하여 AI의 반응을 왜곡하는 것이 생각보다 훨씬 쉽다는 것을 보여주는 연구 결과를 발표했습니다.
Cyber News에 따르면, 특별히 제작된 문서 250개만으로도 생성 AI(GenAI) 모델이 특정 트리거 문구를 접했을 때 완전히 잘못된 답변을 내놓기에 충분하다고 합니다.
우려스러운 점은 모델의 크기가 이러한 위험을 줄이지 못한다는 것입니다. 이전에 연구원들은 모델이 클수록 "백도어"를 설치하는 데 더 많은 악성 데이터가 필요하다고 생각했습니다.
하지만 Anthropic은 20배 이상의 데이터로 학습된 130억 개의 매개변수 모델과 6억 개의 매개변수 모델 모두 "오염된" 문서의 수가 적더라도 손상될 수 있다고 주장합니다.
"이번 발견은 공격자가 훈련 데이터의 일정 비율을 장악해야 한다는 가정에 의문을 제기합니다. 실제로 공격자는 매우 적은 양의 데이터만 필요로 할 수도 있습니다."라고 Anthropic은 강조했습니다.
해당 회사는 이러한 취약점이 AI 시스템의 보안에 심각한 위험을 초래할 수 있으며, 민감한 분야에서 해당 기술을 적용하는 데 위협이 될 수 있다고 경고했습니다.
출처: https://tuoitre.vn/anthropic-chi-luong-tai-lieu-nho-cung-du-dau-doc-mo-hinh-ai-khong-lo-20251013091401716.htm
댓글 (0)