
4월, 프로그래머를 위한 신흥 도구인 Cursor의 기술 지원을 담당하는 AI 봇이 일부 고객에게 회사 정책 변경 사항을 알렸습니다. 구체적으로, 해당 알림에는 고객이 더 이상 두 대 이상의 컴퓨터에서 Cursor를 사용할 수 없다는 내용이 포함되어 있었습니다.
포럼과 소셜 미디어에서 고객들은 분노를 표출하는 글을 올렸습니다. 심지어 일부는 Cursor 계정을 해지하기도 했습니다. 하지만 더 큰 분노를 느낀 고객들은 무슨 일이 벌어졌는지 깨달았습니다. AI 봇이 존재하지도 않는 정책 변경을 발표했던 것입니다.
"저희는 그런 정책을 가지고 있지 않습니다. 물론 Cursor는 여러 대의 컴퓨터에서 사용하실 수 있습니다. 안타깝게도 이는 AI 지원 봇의 부정확한 답변입니다."라고 마이클 트루엘 CEO 겸 공동 창업자는 레딧 게시물에 썼습니다.
가짜 뉴스의 확산은 만연하고 통제되지 않고 있다.
ChatGPT가 등장한 지 2년이 넘은 지금, 기술 기업, 직장인, 그리고 일반 소비자 모두 다양한 작업에 AI 봇을 점점 더 자주 사용하고 있습니다.
하지만 이러한 시스템이 정확한 정보를 생성한다는 것을 보장할 방법은 여전히 없습니다. 역설적이게도 OpenAI, Google, DeepSeek과 같은 회사에서 개발한 최신이자 가장 강력한 기술, 즉 "추론" 시스템은 오히려 더 많은 오류를 발생시키고 있습니다.
![]() |
ChatGPT에서 한 사용자가 자신의 개에게 시리얼을 줘야 하는지 묻는 황당한 대화. 사진: 레딧. |
수학적 능력은 눈에 띄게 향상된 반면, 대규모 언어 모델(LLM)이 진실을 파악하는 능력은 오히려 더 불안정해졌습니다. 놀랍게도, 엔지니어들조차 그 이유를 전혀 이해하지 못하고 있습니다.
뉴욕 타임스 에 따르면, 오늘날의 AI 챗봇은 방대한 양의 수치 데이터를 분석하여 기술을 학습하기 위해 복잡한 수학 시스템에 의존합니다. 그러나 챗봇은 무엇이 옳고 그른지 판단할 수는 없습니다.
여기서 '환각' 또는 자기창조라는 현상이 나타납니다. 실제로 연구에 따르면 최신 세대의 LLM들은 이전 세대 모델들보다 '환각'을 더 자주 경험하는 것으로 나타났습니다.
구체적으로, OpenAI는 최신 보고서에서 o3 모델이 자사 내부 표준인 PersonQA(인간에 대한 모델의 지식 정확도를 측정하는 도구) 질문의 33%에 대해 "허구적인" 답변을 내놓았다는 사실을 발견했습니다.
비교하자면, 이 수치는 OpenAI의 이전 추론 모델인 o1과 o3-mini의 '착각' 비율(각각 16%와 14.8%)의 두 배에 달합니다. 한편, o4-mini 모델은 PersonQA 데이터셋에서 훨씬 더 저조한 성능을 보이며 테스트 시간의 48% 동안 '착각' 상태에 빠졌습니다.
더욱 우려스러운 점은 "ChatGPT의 창시자"로 불리는 OpenAI조차 이러한 현상이 발생하는 이유를 정확히 알지 못한다는 것입니다. 특히, o3 및 o4-mini에 대한 기술 보고서에서 OpenAI는 추론 모델의 크기를 확장할 때 "환각 현상이 악화되는 이유를 이해하기 위해 추가 연구가 필요하다"고 명시하고 있습니다.
o3와 o4-mini는 프로그래밍 및 수학 관련 작업을 포함한 일부 영역에서 더 나은 성능을 보였습니다. 그러나 두 모델 모두 "일반적인 진술보다 더 많은 진술을 해야 하므로" "더 정확한 진술을 내놓지만, 동시에 더 부정확한 진술도 내놓게 됩니다."
"그건 절대 사라지지 않을 거예요."
인간 엔지니어가 정의한 엄격한 규칙 대신, LLM 시스템은 수학적 확률을 사용하여 최적의 반응을 예측합니다. 따라서 이러한 시스템은 항상 일정 수의 오류를 범할 수밖에 없습니다.
"최선을 다하더라도 AI 모델은 항상 착각에 빠질 수밖에 없습니다. 이는 결코 사라지지 않을 것입니다."라고 구글 전 임원인 암르 아와달라는 말했다.
![]() |
IBM에 따르면, 환각이란 대규모 언어 모델(LLM), 특히 챗봇이나 컴퓨터 비전 도구가 존재하지 않거나 사람이 인식할 수 없는 데이터 패턴을 입력받아 의미 없거나 부정확한 결과를 도출하는 현상입니다. 이미지: iStock. |
오픈아이얼은 실험에 대한 상세한 보고서에서 이러한 결과의 원인을 이해하기 위해서는 추가적인 연구가 필요하다고 밝혔습니다.
전문가들에 따르면, 인공지능 시스템은 인간이 이해할 수 있는 것보다 훨씬 더 많은 양의 데이터로부터 학습하기 때문에, 그들이 특정 방식으로 행동하는 이유를 파악하기가 매우 어렵다고 합니다.
"이러한 착각은 추론 모델에서 본질적으로 더 흔하게 나타나지만, 저희는 o3 및 o4-mini에서 나타나는 착각 발생률을 줄이기 위해 적극적으로 노력하고 있습니다. 정확성과 신뢰성을 향상시키기 위해 모든 모델에서 이러한 착각 현상을 지속적으로 연구할 것입니다."라고 OpenAI 대변인 가비 라일라가 밝혔습니다.
수많은 독립 기업과 연구원들이 실시한 테스트 결과에 따르면 구글이나 딥시크 같은 회사의 추론 모델에서도 환각 현상 발생률이 증가하고 있는 것으로 나타났습니다.
2023년 말부터 아와달라의 회사인 벡타라는 챗봇이 허위 정보를 퍼뜨리는 빈도를 모니터링해 왔습니다. 회사는 이 시스템들에게 특정 기사를 요약하는 간단하고 검증하기 쉬운 작업을 맡겼습니다. 그럼에도 불구하고 챗봇들은 지속적으로 정보를 왜곡했습니다.
구체적으로, Vectara의 초기 연구에 따르면 이러한 가설 하에서 챗봇은 최소 3%, 많게는 27%에 달하는 경우에 정보를 조작하는 것으로 추정되었습니다.
지난 1년 반 동안 OpenAI와 Google 같은 기업들은 이러한 수치를 1~2% 수준으로 낮췄습니다. 샌프란시스코의 스타트업인 Anthropic과 같은 기업들은 여전히 4% 안팎을 유지하고 있습니다.
하지만 이번 실험에서 추론 시스템의 환각 발생률은 계속해서 증가했습니다. DeepSeek의 R1 추론 시스템은 14.3%의 환각을 경험했고, OpenAI의 o3는 6.8% 증가했습니다.
또 다른 문제는 추론 모델이 최종 답에 도달하기 전에 복잡한 문제를 "생각하는" 데 시간을 소비하도록 설계되었다는 점입니다.
![]() |
애플은 macOS 15.1의 첫 번째 베타 버전에서 AI가 정보를 조작하는 것을 방지하기 위한 알림 기능을 포함시켰습니다. 이미지: Reddit/devanxd2000 |
하지만 단점은 문제를 단계적으로 해결하려 할 때 AI 모델이 각 단계마다 오류를 범할 가능성이 더 높다는 것입니다. 더욱 중요한 것은 모델이 생각하는 데 더 많은 시간을 소비할수록 오류가 누적될 수 있다는 점입니다.
최신 챗봇은 사용자에게 각 단계를 보여주므로 사용자는 모든 오류도 확인할 수 있습니다. 연구원들은 또한 많은 경우 챗봇이 보여주는 사고 과정이 최종 답변과 실제로는 관련이 없다는 사실을 발견했습니다.
에든버러 대학교의 AI 연구원이자 앤스로픽의 기고자인 아리오 프라딥타 게마는 "시스템이 추론하고 있다고 말하는 내용이 반드시 실제로 생각하는 내용과 일치하는 것은 아니다"라고 말합니다.
출처: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










댓글 (0)