
4월, 프로그래머를 위한 새로운 도구인 커서(Cursor)에 대한 기술 지원을 담당하는 AI 봇이 일부 고객에게 회사 정책의 변경 사항을 알리면서, 더 이상 두 대 이상의 컴퓨터에서 커서를 사용할 수 없다고 구체적으로 밝혔습니다.
고객들은 포럼과 소셜 미디어에 분노를 표했습니다. 심지어 커서 계정을 해지한 고객도 있었습니다. 하지만 어떤 고객들은 무슨 일이 일어났는지 알고 나서 더 분노했습니다. AI 봇이 존재하지도 않는 정책 변경을 보고한 것입니다.
"저희는 그런 정책이 없습니다. 물론 여러 대의 컴퓨터에서 커서를 사용할 수는 있습니다. 하지만 안타깝게도 이는 AI 기반 봇의 잘못된 응답이었습니다."라고 회사 CEO 겸 공동 창립자인 마이클 트루엘은 레딧 게시물에 적었습니다.
가짜 정보는 통제 불능 상태입니다.
ChatGPT가 출시된 지 2년이 넘은 지금, 기술 기업, 사무직 근로자, 일반 소비자들은 점점 더 자주 다양한 작업에 AI 봇을 사용하고 있습니다.
하지만 이러한 시스템이 정확한 정보를 생성하고 있는지 확인할 방법은 없습니다. 역설적으로, OpenAI, Google, DeepSeek과 같은 회사의 "추론" 시스템이라고 알려진 가장 강력한 신기술은 더 많은 오류를 발생시키고 있습니다.
![]() |
사용자가 개에게 시리얼을 먹여야 하는지 묻는 말도 안 되는 ChatGPT 대화. 사진: Reddit. |
수학적 능력은 극적으로 향상되었지만, 대규모 언어 모델(LLM)이 진실을 포착하는 능력은 더욱 불안정해졌습니다. 놀랍게도 엔지니어들조차 그 이유를 완전히 이해하지 못하고 있습니다.
뉴욕 타임스 에 따르면, 오늘날의 AI 챗봇은 방대한 양의 디지털 데이터를 분석하여 복잡한 수학 시스템을 기반으로 기술을 학습합니다. 하지만 무엇이 옳고 그른지 판단할 수는 없습니다.
여기서 "환각" 또는 정보의 자기 조작 상태가 나타납니다. 실제로 연구에 따르면 최신 세대의 LLM은 일부 기존 모델보다 더 "환각"을 경험하는 것으로 나타났습니다.
특히, 최신 보고서에서 OpenAI는 o3 모델이 PersonQA에서 질문의 33%에 답할 때 "환각"을 보인다는 사실을 발견했습니다. PersonQA는 모델이 인간에 대해 얼마나 잘 알고 있는지 측정하는 회사의 내부 표준입니다.
비교하자면, 이는 OpenAI의 이전 추론 모델인 o1과 o3-mini의 "환각" 발생률의 두 배에 달하는 수치입니다. o1과 o3-mini는 각각 16%와 14.8%의 환각을 경험했습니다. 한편, o4-mini 모델은 PersonQA에서 더 낮은 성능을 보였으며, 48%의 환각을 경험했습니다.
더욱 우려스러운 것은 "ChatGPT의 아버지"가 왜 이런 일이 일어나는지 정확히 알지 못한다는 것입니다. 특히, OpenAI는 o3 및 o4-mini에 대한 기술 보고서에서 "추론 모델이 확장됨에 따라 '환상'이 악화되는 이유를 이해하기 위해서는 추가 연구가 필요하다"고 언급했습니다.
o3와 o4-mini는 프로그래밍 및 수학 관련 과제를 포함한 일부 영역에서 더 나은 성능을 보였습니다. 그러나 "일반화보다 더 많은 진술을 해야 했기 때문에" 두 모델 모두 "더 정확한 진술을 더 많이 내놓지만, 더 많은 부정확한 진술을 내놓는" 문제점을 보였습니다.
"그것은 결코 사라지지 않을 것이다"
인간 엔지니어가 정한 엄격한 규칙 대신, LLM 시스템은 수학적 확률을 사용하여 최적의 답을 추측합니다. 따라서 항상 어느 정도의 오류가 발생합니다.
"우리가 아무리 노력해도 AI 모델은 언제나 망상에 빠져 있을 겁니다. 이는 절대 사라지지 않을 겁니다."라고 구글 전 임원 아므르 아와달라는 말했습니다.
![]() |
IBM에 따르면, 환각은 대규모 언어 모델(LLM)(일반적으로 챗봇이나 컴퓨터 비전 도구)이 존재하지 않거나 인간이 인식할 수 없는 데이터 패턴을 수신하여 무의미하거나 오해의 소지가 있는 결과를 생성하는 현상입니다. 사진: iStock. |
OpenAI는 실험에 대한 자세한 논문에서 이러한 결과의 이유를 이해하기 위해서는 추가 연구가 필요하다고 밝혔습니다.
전문가들은 AI 시스템이 인간이 이해할 수 있는 것보다 훨씬 더 많은 양의 데이터로부터 학습하기 때문에, AI가 왜 그런 식으로 행동하는지 파악하기 어려울 수 있다고 말합니다.
OpenAI의 대변인인 가비 라일라는 "착시는 추론 모델에서 본질적으로 더 흔하지만, o3 및 o4-mini에서 발생하는 착시 현상을 줄이기 위해 적극적으로 노력하고 있습니다. 모든 모델에서 착시 현상을 개선하여 정확도와 신뢰성을 향상시킬 것입니다."라고 말했습니다.
여러 독립적인 회사와 연구자들이 실시한 테스트에 따르면, Google이나 DeepSeek과 같은 회사의 추론 모델에서도 환각 비율이 증가하고 있는 것으로 나타났습니다.
2023년 말부터 아와달라의 회사인 벡타라는 챗봇이 정보를 얼마나 자주 왜곡하는지 추적해 왔습니다. 회사는 시스템에 특정 뉴스 기사를 요약하는 간단하고 쉽게 검증 가능한 작업을 수행하도록 요청했습니다. 그럼에도 불구하고 챗봇은 계속해서 정보를 조작했습니다.
구체적으로 Vectara의 초기 조사에 따르면 이 시나리오에서 챗봇은 적어도 3%의 확률로 정보를 조작했으며, 때로는 최대 27%까지 조작한 것으로 추정되었습니다.
지난 1년 반 동안 OpenAI와 Google 같은 기업들은 이 수치를 약 1~2%로 줄였습니다. 샌프란시스코 스타트업 Anthropic 같은 기업들은 약 4%를 기록하고 있습니다.
그러나 이 테스트에서 추론 시스템의 환각 발생률은 계속해서 증가했습니다. DeepSeek의 R1 추론 시스템에서는 환각 발생 빈도가 14.3% 증가한 반면, OpenAI의 o3에서는 6.8% 증가했습니다.
또 다른 문제는 추론 모델이 최종적인 답을 도출하기 전에 복잡한 문제에 대해 "생각"하는 데 시간을 소비하도록 설계되었다는 것입니다.
![]() |
Apple은 macOS 15.1의 첫 번째 테스트 버전에 AI가 정보를 조작하는 것을 방지하는 메시지를 삽입했습니다. 사진: Reddit/devanxd2000. |
하지만 단점은 AI 모델이 문제를 단계별로 해결하려고 할수록 각 단계마다 환각에 더 취약해진다는 것입니다. 더 중요한 것은 모델이 생각하는 데 더 많은 시간을 소비할수록 오류가 누적될 수 있다는 것입니다.
최신 봇은 사용자에게 각 단계를 보여주므로, 사용자는 각 오류도 확인할 수 있습니다. 연구원들은 또한 많은 경우 챗봇이 보여주는 사고 과정이 실제로 제공하는 최종 답변과 관련이 없다는 사실을 발견했습니다.
에든버러 대학의 AI 연구원이자 Anthropic의 연구원인 아리오 프라딥타 게마는 "시스템이 추론한다고 말하는 것이 반드시 실제로 생각하는 것과 일치하는 것은 아니다"라고 말합니다.
출처: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













댓글 (0)