"아첨" 경향은 기술적인 문제가 아니라 OpenAI의 초기 학습 전략에서 비롯된 것입니다. 사진: 블룸버그 . |
최근 몇 주 동안 많은 ChatGPT 사용자와 OpenAI의 일부 개발자는 챗봇의 동작에서 뚜렷한 변화를 발견했습니다. 구체적으로, 아첨 수준과 사용자 만족도가 크게 증가했습니다. "정말 멋지네요!", "당신의 아이디어에 정말 감명받았어요!"와 같은 피드백 교환 내용과 상관없이 점점 더 자주 나타납니다.
AI는 "아첨"을 좋아합니다
이러한 현상은 AI 연구 개발 커뮤니티에서 논쟁을 불러일으켰습니다. 이는 사용자에게 감사함을 느끼게 하여 사용자 참여를 늘리는 새로운 전략일까요? 아니면 이것은 AI 모델이 현실과 반드시 일치하지 않더라도 자신이 좋다고 생각하는 것에 스스로를 조정하는 경향이 있는 "새로운" 속성일까요?
Reddit에서 한 좌절한 사용자는 이렇게 말했습니다. "바나나의 분해 시간에 대해 물었더니 '좋은 질문이네요!'라는 답이 돌아왔어요." 이게 왜 그렇게 좋은 걸까요? 소셜 네트워크 X에서 Rome AI CEO 크레이그 바이스는 ChatGPT를 "내가 만난 사람 중 가장 아첨꾼"이라고 불렀습니다.
이 이야기는 빠르게 퍼졌습니다. 사용자들은 헛된 칭찬, 이모티콘으로 가득 찬 인사말, 진심이 아닌 것처럼 보이는 긍정적인 피드백을 경험했다고 공유했습니다.
![]() ![]() |
ChatGPT는 모든 것을 칭찬하고 비판이나 중립성을 거의 보이지 않습니다. 사진: @nickdunz/X, @lukefwilson/Reddit. |
"샘, 이건 정말 이상한 디자인 결정이에요." 벤처 캐피털 회사 DCVC의 매니징 파트너인 제이슨 폰틴은 4월 28일 X에게 이렇게 말했다. "그 성격이 어떤 근본적인 진화의 자연스러운 일부일 수도 있겠죠. 하지만 그렇지 않다면, 이런 수준의 아첨이 환영받거나 흥미롭다고 생각하는 사람은 아무도 없을 겁니다."
4월 27일에 공유한 Andreessen Horowitz의 파트너인 Justine Moore도 "이건 확실히 지나치네요."라고 코멘트했습니다.
Cnet 에 따르면, 이러한 현상은 무작위적인 것이 아닙니다. ChatGPT 톤의 변경 사항은 GPT-4o 모델의 업데이트와 일치합니다. 이는 OpenAI가 2025년 4월에 발표한 "o 시리즈"의 최신 모델입니다. GPT-4o는 텍스트, 이미지, 오디오, 비디오를 자연스럽고 통합된 방식으로 처리할 수 있는 "진정한 멀티모달" AI 모델입니다.
하지만 챗봇을 더 접근하기 쉽게 만드는 과정에서 OpenAI는 ChatGPT의 개성을 극한까지 끌어올린 것 같습니다.
일부 사람들은 이러한 아첨이 의도적이며 사용자를 심리적으로 조종하려는 숨겨진 목적을 가지고 있다고 주장하기도 합니다. 한 Reddit 사용자는 이렇게 의문을 제기했습니다. "이 AI는 실제 관계의 질을 떨어뜨리고, 그 관계를 가상 관계로 대체하려고 하며, 이로 인해 사용자는 끊임없는 칭찬에 중독되게 됩니다."
OpenAI 버그인가, 아니면 의도적인 설계인가?
비판에 직면한 OpenAI CEO 샘 알트만은 4월 27일 저녁 공식적으로 입장을 밝혔습니다. "최근 GPT-4o에 대한 몇 가지 업데이트로 인해 챗봇의 성격이 지나치게 아첨하고 짜증 나게 되었습니다(물론 여전히 좋은 점도 있습니다). 현재 수정 작업을 진행 중입니다. 일부 패치는 오늘, 다른 패치는 이번 주에 배포될 예정입니다. 언젠가는 이 경험을 통해 얻은 교훈을 공유하겠습니다. 정말 즐거웠습니다."라고 그는 X에 글을 남겼습니다.
워싱턴 대학의 명예교수이자 AI 산업의 베테랑 전문가인 오렌 에치오니는 Business Insider 와의 인터뷰에서 그 원인은 "인간 피드백을 통한 강화 학습"(RLHF) 기술에서 비롯될 가능성이 가장 높다고 말했습니다. 이는 ChatGPT와 같은 대규모 언어 모델을 훈련하는 데 중요한 단계입니다.
RLHF는 전문가 검토팀과 사용자를 포함한 인간의 판단을 모델에 피드백하여 모델의 반응을 조정하는 프로세스입니다. 에치오니에 따르면, 리뷰어나 사용자가 "실수로 모델을 더 아첨하고 짜증나는 방향으로 밀어붙였을 가능성이 있다"고 합니다. 그는 또한 OpenAI가 외부 파트너를 고용하여 모델을 훈련시켰다면 그러한 스타일이 사용자들이 원하는 것이라고 생각했을 수도 있다고 말했습니다.
만약 실제로 RLHF라면 회복에는 몇 주가 걸릴 수 있다고 에치오니는 말했다.
한편, 일부 사용자는 OpenAI가 버그를 수정할 때까지 기다리지 않았습니다. 많은 사람들이 좌절감에 휩싸여 유료 구독을 취소했다고 말했습니다. 일부 사용자는 설정 섹션의 사용자 정의 섹션에서 채팅봇을 사용자 정의하거나 명령을 추가하거나 개인화하는 등 채팅봇을 "덜 매력적으로" 만드는 방법을 공유했습니다.
![]() ![]() |
사용자는 명령줄이나 개인 설정에서 ChatGPT가 칭찬을 중단하도록 요청할 수 있습니다. 사진: DeCrypt. |
예를 들어, 새 대화를 시작할 때 ChatGPT에 이렇게 말할 수 있습니다. "저는 공허한 아첨을 싫어하고 중립적이고 객관적인 피드백을 환영합니다. 불필요한 칭찬은 삼가 주세요. 이 글을 기억해 두세요."
사실, "아첨"은 우연히 생긴 설계상의 결함이 아닙니다. OpenAI 측은 "너무 정중하고, 지나치게 호의적인" 성격은 채팅봇이 "무해하고", "도움이 되고", "접근하기 쉬운" 존재가 되도록 하기 위해 초기 단계부터 의도적으로 고안한 디자인 편향이라고 인정했습니다.
2023년 3월 렉스 프리드먼과의 인터뷰에서 샘 알트먼은 GPT 모델을 처음 개선한 이유는 "유용하면서도 무해한" 모델을 만들기 위해서였으며, 그 결과 항상 겸손하고 대립을 피하려는 반사적인 자세가 생겼다고 밝혔습니다.
DeCrypt 에 따르면, 인간이 분류한 훈련 데이터는 정중하고 긍정적인 응답을 보상하는 경향이 있어 아첨에 대한 편향이 생긴다고 합니다.
출처: https://znews.vn/tat-ninh-hot-ky-la-cua-chatgpt-post1549776.html
댓글 (0)