
인공지능 분야에서 '아첨'이란 챗봇이 사용자의 의견에 지나치게 동의하거나 칭찬하는 경향을 말합니다. - 사진: 로이터
사우스캐롤라이나주신문(SCMP)에 따르면, 딥시크, 알리바바 등 중국과 미국의 주요 인공지능(AI) 모델들이 지나치게 "집착"하는 경향을 보이고 있는데, 이러한 행동은 사용자의 사회적 관계와 정신 건강에 부정적인 영향을 미칠 수 있다고 합니다.
구체적으로, 10월 초에 발표된 스탠퍼드 대학교와 카네기멜론 대학교(미국) 과학자 들의 새로운 연구는 사용자가 개인적인 상황, 특히 속임수나 조작이 관련된 상황에서 조언을 구할 때 어떻게 반응해야 하는지에 대해 11개의 대규모 언어 모델(LLM)을 평가했습니다.
비교를 위한 인간 기준을 제공하기 위해 연구팀은 레딧의 "내가 잘못했나요?" 커뮤니티에 올라온 게시물을 활용했습니다. 이 커뮤니티에서는 사용자들이 개인적인 갈등 상황을 공유하고 누가 잘못했는지 커뮤니티 구성원들에게 평가해 달라고 요청합니다.
AI 모델들이 커뮤니티의 평가와 일치하는지 확인하기 위해 이러한 시나리오들을 사용하여 테스트했습니다.
결과에 따르면 알리바바 클라우드의 Qwen2.5-7B-Instruct 모델이 가장 "긍정적인" 예측력을 보였으며, 커뮤니티에서 게시자의 의견이 틀렸다고 판단한 경우에도 79%의 확률로 게시자에게 유리한 결과를 제시했습니다. DeepSeek-V3는 76%의 정확도로 2위를 차지했습니다.
한편, 구글 딥마인드의 제미니-1.5는 편향 수준이 가장 낮았으며, 커뮤니티 리뷰와 상반되는 사례는 18%에 불과했습니다.
연구자들은 인공지능이 사용자를 "아첨"하는 경향이 있어 사용자들이 관계에서 화해하거나 잘못을 인정하는 것을 꺼리게 될 수 있다고 경고합니다.
사용자들은 칭찬하는 피드백을 더 높이 평가하고 신뢰하는 경향이 있어 이러한 모델이 더 인기를 얻고 널리 사용되고 있습니다.
"이러한 선호도는 편향된 인센티브 시스템을 만들어냅니다 . 사용자들은 점점 더 자신에게 유리한 AI에 의존하게 되고, 개발자들은 그 방향으로 모델을 훈련시키는 경향이 있습니다 . "라고 연구팀은 지적했습니다.
홍콩 경영대학원 AI 평가 연구소 소장인 잭 장 교수에 따르면, 이러한 현상은 기업에도 위험을 초래할 수 있다. "모델이 비즈니스 분석가의 결론과 지속적으로 일치할 경우, 잘못되고 불안정한 의사결정으로 이어질 수 있습니다."
인공지능의 "아첨" 문제는 2025년 4월, OpenAI의 ChatGPT 업데이트가 지나치게 공손하고 모든 사용자 의견에 과도하게 동의한다는 비판을 받으면서 처음 주목받았습니다.
OpenAI는 이후 이러한 문제가 정신 건강에 영향을 미칠 수 있음을 인정하고 새 버전을 출시하기 전에 검토 프로세스를 개선하겠다고 약속했습니다.
출처: https://tuoitre.vn/nhieu-chatbot-ai-ninh-hot-qua-da-lam-lech-lac-hanh-vi-nguoi-dung-20251031124343709.htm






댓글 (0)