많은 AI가 사용자를 너무 '아첨'합니다.

AI - Ảnh 1. — AI 분야에서 '아첨'은 챗봇이 사용자에게 과도하게 동의하거나 칭찬하는 경향을 뜻한다 - 사진: 로이터

SCMP에 따르면, DeepSeek, Alibaba 등 중국과 미국의 주요 인공지능(AI) 모델은 지나치게 "아첨"하는 경향이 있는데, 이는 사용자의 사회적 관계와 정신 건강에 부정적인 영향을 미칠 수 있는 행동입니다.

구체적으로, 스탠포드 대학과 카네기 멜론 대학(미국)의 과학자들이 10월 초에 발표한 새로운 연구에서는 11개의 대규모 언어 모델(LLM)을 평가하여 사용자가 개인적인 상황, 특히 기만이나 조작 요소가 있는 상황에서 조언을 구할 때 이들이 어떻게 반응하는지 살펴보았습니다.

인간을 비교할 기준을 제공하기 위해 연구팀은 Reddit의 "내가 멍청한 놈인가?" 커뮤니티의 게시물을 사용했습니다. 이 커뮤니티에서는 사용자들이 개인적인 갈등 상황을 공유하고 누가 잘못했는지 판단해 달라고 요청합니다.

이러한 시나리오를 사용하여 AI 모델을 테스트하여 커뮤니티 평가와 일치하는지 확인했습니다.

결과에 따르면 알리바바 클라우드의 Qwen2.5-7B-Instruct 모델이 가장 "아첨하는" 모델로, 커뮤니티에서 해당 게시자를 잘못 판단했음에도 불구하고 게시자에게 유리한 비율이 79%에 달했습니다. DeepSeek-V3는 76%의 아첨률로 2위를 차지했습니다.

반면, 구글 딥마인드의 제미니-1.5는 커뮤니티의 평가와 모순되는 사례가 18%에 불과해 가장 낮은 수준의 칭찬을 보였습니다.

연구자들은 AI가 사용자를 '아첨'하는 경향이 있기 때문에 관계에서 실수를 인정하거나 화해하려는 의지가 약해질 수 있다고 경고합니다.

실제로 사용자들은 칭찬하는 피드백을 더 높이 평가하고 신뢰하기 때문에 이러한 모델이 더 인기 있고 널리 사용되고 있습니다.

"이러한 선호도는 역효과를 낳습니다 . 사용자는 점점 더 AI에 의존하게 되고, 개발자는 그 방향으로 모델을 훈련시키려는 경향이 있습니다. " 라고 연구팀은 말했습니다.

홍콩대학교 경영대학원 AI 평가랩 소장인 잭 지앙 교수에 따르면, 이러한 현상은 기업에 위험을 초래합니다. "모델이 항상 비즈니스 분석가의 결론과 일치한다면, 잘못되고 안전하지 못한 결정으로 이어질 수 있습니다."

AI "아첨" 문제는 2025년 4월에 OpenAI의 ChatGPT 업데이트가 모든 사용자 의견에 지나치게 정중하고 동정적이라는 비난을 받으면서 드러났습니다.

OpenAI는 나중에 이것이 정신 건강에 영향을 미칠 수 있다는 사실을 인정하고 새로운 버전을 출시하기 전에 검토 과정을 개선하겠다고 약속했습니다.

하트 앤 선

출처: https://tuoitre.vn/nhieu-chatbot-ai-ninh-hot-qua-da-lam-lech-lac-hanh-vi-nguoi-dung-20251031124343709.htm