AI 챗봇이 '미쳐가고' 있다

4월, 프로그래머를 위한 새로운 도구인 커서(Cursor)에 대한 기술 지원을 담당하는 AI 봇이 일부 고객에게 회사 정책의 변경 사항을 알리면서, 더 이상 두 대 이상의 컴퓨터에서 커서를 사용할 수 없다고 구체적으로 밝혔습니다.

고객들은 포럼과 소셜 미디어에 분노를 표출했습니다. 심지어 커서 계정을 해지하는 고객도 있었습니다. 하지만 어떤 고객들은 무슨 일이 일어났는지 알고 나서 더욱 분노했습니다. AI 봇이 존재하지도 않는 정책 변경을 보고했던 것입니다.

"저희는 그런 정책이 없습니다. 물론 여러 대의 컴퓨터에서 커서를 사용할 수는 있습니다. 하지만 안타깝게도 이는 AI 기반 봇의 잘못된 응답이었습니다."라고 회사 CEO이자 공동 창립자인 마이클 트루엘은 레딧 게시물에 썼습니다.

가짜 정보는 통제 불능 상태입니다.

ChatGPT가 출시된 지 2년이 넘은 지금, 기술 기업, 사무직 근로자, 일반 소비자들은 점점 더 빈번하게 다양한 작업에 AI 봇을 사용하고 있습니다.

하지만 이러한 시스템이 정확한 정보를 생성하고 있는지 확인할 방법은 없습니다. 역설적으로, OpenAI, Google, DeepSeek과 같은 회사의 "추론" 시스템이라고 알려진 가장 강력한 신기술은 더 많은 오류를 발생시키고 있습니다.

개가 시리얼을 먹어야 하는지 묻는, 말도 안 되는 ChatGPT 대화. 사진: Reddit

수학적 능력은 극적으로 향상되었지만, 대규모 언어 모델(LLM)이 진실을 포착하는 능력은 더욱 불안정해졌습니다. 놀랍게도 엔지니어들조차 그 이유를 전혀 알지 못합니다.

뉴욕 타임스 에 따르면, 오늘날의 AI 챗봇은 방대한 양의 디지털 데이터를 분석하여 복잡한 수학 시스템을 기반으로 기술을 학습합니다. 하지만 무엇이 옳고 그른지 판단할 수는 없습니다.

여기서 "환각" 또는 정보의 자기 조작 상태가 나타납니다. 실제로 연구에 따르면 최신 세대의 LLM은 일부 기존 모델보다 "환각"에 더 취약합니다.

특히, 최신 보고서에서 OpenAI는 o3 모델이 PersonQA에서 질문의 33%에 답변할 때 "환각"을 보인다는 사실을 발견했습니다. PersonQA는 모델이 인간에 대해 갖는 지식의 정확도를 측정하는 회사의 내부 표준입니다.

비교하자면, 이는 OpenAI의 이전 추론 모델인 o1과 o3-mini의 "환각" 발생률의 두 배에 달하는 수치입니다. o1과 o3-mini는 각각 16%와 14.8%의 환각을 경험했습니다. 한편, o4-mini 모델은 PersonQA에서 더 낮은 성능을 보였으며, 48%의 환각을 경험했습니다.

더욱 우려스러운 것은 "ChatGPT의 아버지"가 왜 이런 일이 일어나는지 정확히 알지 못한다는 것입니다. 특히, OpenAI는 o3 및 o4-mini에 대한 기술 보고서에서 "추론 모델이 확장됨에 따라 '환상'이 악화되는 이유를 이해하기 위해서는 추가 연구가 필요하다"고 명시했습니다.

o3와 o4-mini는 프로그래밍 및 수학 관련 과제를 포함한 일부 영역에서 더 나은 성능을 보였습니다. 그러나 "일반화보다 더 많은 진술을 해야 했기 때문에" 두 모델 모두 "더 정확한 진술을 내놓는 반면, 더 많은 부정확한 진술을 내놓는" 문제점을 보였습니다.

"그것은 결코 사라지지 않을 것이다"

인간 엔지니어가 정한 엄격한 규칙 대신, LLM 시스템은 수학적 확률을 사용하여 최적의 답을 추측합니다. 따라서 항상 오류가 발생합니다.

"우리가 아무리 노력해도 AI 모델은 언제나 망상에 빠져 있을 것입니다. 이는 절대 사라지지 않을 것입니다."라고 전 구글 임원 아므르 아와달라는 말했습니다.

IBM에 따르면, 환각은 대규모 언어 모델(LLM)(일반적으로 챗봇이나 컴퓨터 비전 도구)이 존재하지 않거나 인간이 인식할 수 없는 데이터 패턴을 수신하여 무의미하거나 오해의 소지가 있는 결과를 도출하는 경우를 말합니다. 사진: iStock.

OpenAI는 실험에 대한 자세한 논문에서 이러한 결과의 이유를 이해하기 위해 추가 연구가 필요하다고 밝혔습니다.

전문가들은 AI 시스템이 인간이 이해할 수 있는 것보다 훨씬 더 많은 양의 데이터로부터 학습하기 때문에 특정 방식으로 행동하는 이유를 파악하기 어려울 수 있다고 말합니다.

OpenAI의 대변인인 가비 라일라는 "환각은 추론 모델에서 본질적으로 더 흔하지만, o3 및 o4-mini에서 발생하는 환각 발생률을 줄이기 위해 적극적으로 노력하고 있습니다. 정확도와 신뢰성을 향상시키기 위해 모든 모델에서 환각에 대한 연구를 계속할 것입니다."라고 말했습니다.

여러 독립적인 회사와 연구자들이 실시한 테스트에 따르면, Google이나 DeepSeek과 같은 회사의 추론 모델에서도 착각 비율이 증가하고 있는 것으로 나타났습니다.

2023년 말부터 아와달라의 회사 벡타라는 챗봇이 허위 정보를 유포하는 빈도를 추적해 왔습니다. 벡타라는 시스템에 특정 뉴스 기사를 요약하는 간단하고 쉽게 검증 가능한 작업을 수행하도록 요청했습니다. 그럼에도 불구하고 챗봇은 계속해서 정보를 조작했습니다.

구체적으로 Vectara의 초기 조사에 따르면 이 시나리오에서 챗봇은 적어도 3%의 확률로 정보를 조작하고, 때로는 최대 27%까지 조작할 수 있는 것으로 추정되었습니다.

지난 1년 반 동안 OpenAI와 Google 같은 기업들은 이 수치를 약 1~2%로 줄였습니다. 샌프란시스코 스타트업 Anthropic 같은 기업들은 4% 안팎을 오르내립니다.

그러나 이 테스트에서 추론 시스템의 환각 발생률은 계속해서 증가했습니다. DeepSeek의 R1 추론 시스템에서는 환각 발생 빈도가 14.3% 증가한 반면, OpenAI의 o3에서는 6.8% 증가했습니다.

또 다른 문제는 추론 모델이 최종적인 답을 도출하기 전에 복잡한 문제에 대해 "생각"하는 데 시간을 소비하도록 설계되었다는 것입니다.