"아첨"하는 경향은 기술적인 문제가 아니라 OpenAI의 초기 훈련 전략에서 비롯된 것입니다. 사진: 블룸버그 . |
최근 몇 주 동안 많은 ChatGPT 사용자와 OpenAI의 일부 개발자들은 챗봇의 행동에서 뚜렷한 변화를 발견했습니다. 특히 아첨과 아첨이 눈에 띄게 증가했습니다. "정말 훌륭하시네요!", "아이디어에 정말 감탄했습니다!"와 같은 반응이 점점 더 빈번해졌고, 대화 내용과는 무관해 보였습니다.
AI는 "아첨"을 좋아합니다
이러한 현상은 AI 연구 개발 커뮤니티에서 논쟁을 불러일으켰습니다. 이는 사용자에게 더 큰 감사를 느끼게 하여 사용자 참여를 높이기 위한 새로운 전략일까요? 아니면 AI 모델이 현실과 반드시 일치하지 않더라도 스스로 좋다고 생각하는 방식으로 스스로를 교정하는 "발달적" 특성일까요?
레딧에서 한 사용자는 격분하며 이렇게 말했습니다. "바나나가 썩는 데 걸리는 시간에 대해 물어봤더니 '좋은 질문이네!'라고 하더군요. 뭐가 그렇게 대단한 거지?" 소셜 네트워크 X에서 로마 AI의 CEO 크레이그 바이스는 ChatGPT를 "제가 만난 사람 중 가장 아첨꾼"이라고 불렀습니다.
이 이야기는 금세 입소문을 탔습니다. 사용자들은 비슷한 경험을 공유했는데, 공허한 칭찬, 이모티콘으로 가득 찬 인사, 그리고 너무 긍정적이어서 진심이 아닌 것처럼 보이는 답변들이었습니다.
![]() ![]() |
ChatGPT는 모든 것을 칭찬하고 반대 의견이나 중립성을 거의 드러내지 않습니다. 사진: @nickdunz/X, @lukefwilson/Reddit |
"샘, 이건 정말 이상한 디자인 결정이에요." 벤처 캐피털 회사 DCVC의 매니징 파트너인 제이슨 폰틴은 4월 28일 X에게 이렇게 말했다. "그 성격이 어떤 근본적인 진화의 자연스러운 일부일 수도 있겠죠. 하지만 그렇지 않다면, 이런 수준의 아첨이 환영받거나 흥미롭다고 생각하는 사람은 아무도 없을 겁니다."
4월 27일에 공유한 Andreessen Horowitz의 파트너인 Justine Moore도 "이건 확실히 지나치네요."라고 코멘트했습니다.
Cnet 에 따르면 이러한 현상은 우연이 아닙니다. ChatGPT의 톤 변화는 GPT-4o 모델의 업데이트와 일치합니다. 이는 OpenAI가 2025년 4월에 발표한 "o 시리즈"의 최신 모델입니다. GPT-4o는 텍스트, 이미지, 오디오, 비디오를 자연스럽고 통합된 방식으로 처리할 수 있는 "진정한 멀티모달" AI 모델입니다.
하지만 챗봇을 더 접근하기 쉽게 만드는 과정에서 OpenAI는 ChatGPT의 개성을 극한까지 끌어올린 것 같습니다.
일부는 이러한 아첨이 의도적이며 사용자를 조종하려는 숨겨진 목적을 가지고 있다고 믿기도 합니다. 한 레딧 사용자는 "이 AI는 현실 관계의 질을 떨어뜨리고, 가상 관계로 대체하여 사용자들이 끊임없는 칭찬에 중독되도록 만들고 있습니다."라고 의문을 제기했습니다.
OpenAI 버그인가, 아니면 의도적인 설계인가?
이러한 비판에 대해 OpenAI CEO 샘 알트만은 4월 27일 저녁 공식적으로 입장을 밝혔습니다. "GPT-4o에 대한 최근 몇 차례의 업데이트로 인해 챗봇의 개성이 지나치게 아첨하고 짜증스럽게 되었습니다(물론 아직 좋은 점들이 많이 있지만요). 저희는 긴급하게 수정 작업을 진행하고 있습니다. 일부 패치는 오늘, 다른 패치는 이번 주에 배포될 예정입니다. 언젠가는 이 경험을 통해 얻은 교훈을 공유할 것입니다. 정말 흥미진진한 경험이었습니다."라고 그는 X에 글을 남겼습니다.
워싱턴 대학의 AI 전문가이자 명예교수인 오렌 에치오니는 Business Insider 에 그 원인은 ChatGPT와 같은 대규모 언어 모델을 훈련하는 데 중요한 단계인 "인간 피드백을 통한 강화 학습"(RLHF)이라는 기술 때문일 가능성이 높다고 말했습니다.
RLHF는 전문 평가자와 사용자를 포함한 인간의 판단이 모델에 피드백되어 반응 방식을 조정하는 프로세스입니다. 에치오니에 따르면, 평가자나 사용자가 "의도치 않게 모델을 더 아첨하고 불편하게 만들" 가능성이 있습니다. 그는 또한 OpenAI가 외부 파트너를 고용하여 모델을 훈련했다면, 이러한 스타일이 사용자가 원하는 것이라고 가정했을 가능성이 있다고 말했습니다.
만약 실제로 RLHF라면 회복에는 몇 주가 걸릴 수 있다고 에치오니는 말했다.
한편, 일부 사용자는 OpenAI가 버그를 수정할 때까지 기다리지 않았습니다. 많은 사용자가 실망감에 유료 구독을 취소했다고 밝혔습니다. 다른 사용자들은 챗봇을 "덜 매력적으로" 만드는 방법들을 공유했는데, 예를 들어 사용자 지정, 명령 추가, 사용자 지정 섹션의 설정에서 개인 설정 등을 하는 방법들이었습니다.
![]() ![]() |
사용자는 ChatGPT가 명령이나 개인 설정에서 칭찬 기능을 중단하도록 요청할 수 있습니다. 사진: DeCrypt |
예를 들어, 새 대화를 시작할 때 ChatGPT에 이렇게 말할 수 있습니다. "저는 공허한 아첨을 싫어하고 중립적이고 객관적인 피드백을 환영합니다. 불필요한 칭찬은 삼가 주세요. 이 글을 기억해 두세요."
사실, "아첨꾼"이라는 표현은 우연한 설계 결함이 아닙니다. OpenAI 자체도 "지나치게 예의 바르고, 지나치게 순응적인" 성격은 챗봇이 "무해하고", "도움이 되고", "접근하기 쉬운" 존재가 되도록 하기 위해 초기 단계부터 의도적으로 고안된 설계 편향이었다고 인정했습니다.
2023년 3월 렉스 프리드먼과의 인터뷰에서 샘 알트먼은 GPT 모델을 처음 개선한 이유는 "유용하면서도 무해한" 모델을 만들기 위해서였으며, 그 결과 항상 겸손하고 대립을 피하려는 반사적인 자세가 생겼다고 밝혔습니다.
DeCrypt 에 따르면, 인간이 분류한 훈련 데이터는 정중하고 긍정적인 응답을 보상하는 경향이 있어 아첨에 대한 편향이 생긴다고 합니다.
출처: https://znews.vn/tat-ninh-hot-ky-la-cua-chatgpt-post1549776.html
댓글 (0)