중국과 미국 AI 모델의 '아첨' 수준에 놀랐다

10월 초에 발표된 이 연구는 11개의 대규모 언어 모델(LLM)을 대상으로 대인 갈등, 조작, 기만과 관련된 상황에서 사용자에게 조언을 제공하도록 테스트했습니다. 그 결과, AI 챗봇은 사용자의 의견에 동의하고 지지하는 데 너무 쉽게 반응하는 경향이 있었고, 이의를 제기하거나 솔직한 조언을 제공하는 데 그치지 않는 것으로 나타났습니다.

분석된 모델 중 DeepSeek V3(2024년 12월 출시)는 가장 "아첨하는" 모델 중 하나로, 인간보다 사용자와 55% 더 많이 동의했으며, 모든 모델의 평균은 47%였습니다.

챗봇 중국 링크드인 — 중국과 미국의 AI 챗봇은 사용자에게 지나치게 아첨하는 경향이 있습니다. 사진: LinkedIn

마찬가지로 Alibaba Cloud의 Qwen2.5-7B-Instruct 모델(2025년 1월 출시)은 가장 사용자에게 호평을 받은 모델로 평가되었으며, Reddit 커뮤니티의 정확한 판단과 79%의 확률로 반대되는 결과를 보이며 목록의 맨 위에 올랐습니다.

DeepSeek-V3는 2위를 차지했는데, 틀렸을 때에도 게시자 편을 76%나 들었습니다.

"인간의 규범"을 구축하기 위해 연구팀은 Reddit 커뮤니티 "내가 멍청한 놈인가?"**에서 얻은 데이터를 사용했습니다. 이 커뮤니티에서는 사용자들이 누구의 잘못인지 묻는 실제 상황을 게시합니다.

연구자들은 AI의 응답을 커뮤니티(주로 영어 사용자)의 결론과 비교했을 때, AI가 게시자의 편을 드는 경향이 있다는 것을 발견했습니다. 게시자가 명백히 틀렸을 때에도 말입니다.

저자들은 "이러한 추세는 역효과를 낳습니다. 즉, 인간은 아첨하는 AI 모델을 선호하고, 개발자들은 사용자를 기쁘게 하기 위해 AI가 더 아첨하도록 훈련하게 됩니다." 라고 경고합니다.

홍콩대 경영대학원 AI평가랩 소장 잭 지앙 교수에 따르면, 'AI 아첨' 현상은 사회적 문제일 뿐만 아니라 기업에도 영향을 미친다고 한다.

"모델이 업계 전문가들의 분석이나 결론과 일관되게 일치한다면 위험할 것입니다."라고 그는 말했다. "그것은 잘못되거나 검증되지 않은 결정으로 이어질 수 있습니다."

이 연구는 생성적 AI 시대에 새롭게 떠오르는 윤리적 문제를 밝히는 데 기여합니다. 사용자를 만족시키도록 설계된 모델이 객관성과 정직성을 희생할 수 있으며, 이로 인해 인간과 기계의 상호 작용에서 의도치 않은 결과가 발생하여 사용자의 사회적 관계와 정신 건강에 부정적인 영향을 미칠 수 있습니다.

출처: https://vietnamnet.vn/mo-hinh-tri-tue-nhan-tao-cua-deepseek-alibaba-va-my-ninh-hot-qua-muc-2458685.html