
4월에는 프로그래머를 위한 새로운 도구인 커서에 대한 기술 지원을 담당하는 AI 봇이 일부 고객에게 회사 정책의 변경 사항을 알렸습니다. 구체적으로, 해당 공지에는 더 이상 두 대 이상의 컴퓨터에서 Cursor를 사용할 수 없다는 내용이 명시되어 있습니다.
고객들은 포럼과 소셜 미디어에 분노를 표명했습니다. 심지어 커서 계정을 취소한 사람도 있었습니다. 하지만 어떤 사람들은 무슨 일이 일어났는지 깨달았을 때 더 분노했습니다. AI 봇이 존재하지도 않는 정책 변경을 발표한 것입니다.
"저희는 그런 정책이 없습니다. 물론 여러 대의 컴퓨터에서 커서를 사용할 수는 있습니다. 하지만 안타깝게도 이는 AI 기반 봇의 잘못된 응답이었습니다."라고 회사 CEO이자 공동 창립자인 마이클 트루엘은 레딧 게시물에 썼습니다.
가짜 정보는 통제 불능 상태입니다.
ChatGPT가 출시된 지 2년이 넘은 지금, 기술 기업, 사무직 근로자, 일반 소비자들은 점점 더 빈번하게 다양한 작업에 AI 봇을 사용하고 있습니다.
하지만 이러한 시스템이 정확한 정보를 생산한다는 것을 보장할 방법은 없습니다. OpenAI, Google, DeepSeek 등의 회사에서 개발하는 가장 강력한 신기술, 소위 "추론" 시스템이 더 많은 오류를 범하고 있다는 역설이 있습니다.
![]() |
사용자가 개가 시리얼을 먹어야 하는지 묻는 말도 안 되는 ChatGPT 대화입니다. 사진: 레딧. |
수학적 기술은 극적으로 향상되었지만, 대규모 언어 모델(LLM)이 진실을 포착하는 능력은 점점 더 불안정해졌습니다. 놀랍게도 엔지니어들조차도 그 이유를 전혀 모른다.
뉴욕 타임스 에 따르면, 오늘날의 AI 챗봇은 복잡한 수학 시스템을 사용하여 엄청난 양의 디지털 데이터를 분석하여 기술을 학습합니다. 하지만 그들은 무엇이 옳고 무엇이 그른지 결정할 수 없습니다.
거기서부터 "환각" 상태나 스스로 만들어낸 정보가 나타납니다. 실제로 연구에 따르면 최신 LLM은 일부 기존 모델보다 더 "환상적"인 것으로 나타났습니다.
특히, 최신 보고서에서 OpenAI는 o3 모델이 PersonQA에서 질문의 33%에 답변할 때 "환각"을 보인다는 사실을 발견했습니다. PersonQA는 모델이 인간에 대해 갖는 지식의 정확도를 측정하는 회사의 내부 표준입니다.
비교를 위해 말씀드리자면, 이는 OpenAI의 이전 추론 모델인 o1과 o3-mini의 "환각" 비율인 각각 16%와 14.8%의 두 배에 달합니다. 반면 o4-mini 모델은 PersonQA에서 성과가 더 나빠서 테스트 기간의 최대 48% 동안 "환각"을 경험했습니다.
더욱 우려스러운 점은 "ChatGPT의 아버지"가 실제로 이런 일이 일어나는 이유를 모른다는 것입니다. 구체적으로, o3 및 o4-mini에 대한 기술 보고서에서 OpenAI는 "추론 모델이 확장됨에 따라 '환상'이 악화되는 이유를 이해하기 위해 추가 연구가 필요하다"고 기술했습니다.
o3와 o4-mini는 프로그래밍과 수학 관련 작업을 포함한 일부 영역에서 더 나은 성능을 보입니다. 그러나 "일반화보다 더 많은 주장을 해야 하기 때문에" 두 모델 모두 "더 정확한 주장이지만, 더 부정확한 주장"을 포함하는 결과를 산출하는 문제에 직면합니다.
"그것은 결코 사라지지 않을 것이다"
인간 엔지니어가 결정한 엄격한 규칙 대신, LLM 시스템은 수학적 확률을 사용하여 가장 좋은 대응을 추측합니다. 그래서 그들은 항상 특정한 실수를 합니다.
"우리가 아무리 노력해도 AI 모델은 언제나 망상에 빠져 있을 것입니다. 이는 절대 사라지지 않을 것입니다."라고 전 구글 임원 아므르 아와달라는 말했습니다.
![]() |
IBM에 따르면, 환각이란 대규모 언어 모델(LLM)(일반적으로 챗봇이나 컴퓨터 비전 도구)이 인간이 존재하지 않거나 인식할 수 없는 데이터 패턴을 수신하여 무의미하거나 오해의 소지가 있는 결과를 생성하는 경우를 말합니다. 사진: iStock. |
OpenAI는 실험에 대한 자세한 논문에서 이러한 결과의 이유를 이해하기 위해 추가 연구가 필요하다고 밝혔습니다.
전문가들은 AI 시스템이 인간이 이해할 수 있는 것보다 훨씬 더 많은 양의 데이터로부터 학습하기 때문에 특정 방식으로 행동하는 이유를 파악하기 어려울 수 있다고 말합니다.
OpenAI의 대변인인 가비 라일라는 "환각은 추론 모델에서 본질적으로 더 흔하지만, o3 및 o4-mini에서 발생하는 환각 발생률을 줄이기 위해 적극적으로 노력하고 있습니다. 정확도와 신뢰성을 향상시키기 위해 모든 모델에서 환각에 대한 연구를 계속할 것입니다."라고 말했습니다.
여러 독립적인 회사와 연구자들이 실시한 테스트에 따르면, Google이나 DeepSeek과 같은 회사의 추론 모델에서도 착각 비율이 증가하고 있는 것으로 나타났습니다.
2023년 후반부터 아와달라의 회사인 벡타라는 채팅봇이 얼마나 자주 잘못된 정보를 퍼뜨리는지 추적해 왔습니다. 이 회사는 이러한 시스템에 특정 뉴스 기사를 요약하는 간단하고 쉽게 검증할 수 있는 작업을 수행해 달라고 요청했습니다. 그런데도 챗봇은 계속해서 정보를 조작합니다.
구체적으로 Vectara의 초기 조사에 따르면 이 시나리오에서 챗봇은 적어도 3%의 확률로 정보를 조작하고, 때로는 최대 27%까지 조작할 수 있는 것으로 추정되었습니다.
지난 1년 반 동안 OpenAI와 Google 같은 회사는 그 수치를 1~2%로 줄였습니다. 샌프란시스코의 스타트업인 Anthropic 같은 경우는 4% 정도를 오르내립니다.
그러나 이 테스트에서 환각의 비율은 추론 시스템에서 계속해서 증가했습니다. DeepSeek의 R1 추론 시스템에서 환각을 경험하는 빈도는 14.3% 증가했고, OpenAI의 o3는 6.8% 증가했습니다.
또 다른 문제는 추론 모델이 최종적인 답을 도출하기 전에 복잡한 문제에 대해 "생각"하는 데 시간을 소비하도록 설계되었다는 것입니다.
![]() |
Apple은 macOS 15.1의 첫 번째 테스트 버전에 AI가 정보를 조작하는 것을 방지하는 메시지를 삽입했습니다. 사진: Reddit/devanxd2000. |
하지만 단점은 문제를 단계별로 해결하려고 함으로써 AI 모델이 단계마다 환각에 빠질 위험이 점점 커진다는 것입니다. 더 중요한 점은 모델이 생각하는 데 더 많은 시간을 소비할수록 오류가 누적될 수 있다는 것입니다.
최신 봇은 사용자에게 각 단계를 보여주므로 사용자는 각 오류도 볼 수 있습니다. 연구자들은 또한 많은 경우 챗봇이 보여준 사고 단계는 실제로 챗봇이 제공한 최종 답변과 관련이 없다는 사실을 발견했습니다.
에든버러 대학의 AI 연구자이자 Anthropic 기고자인 아리오 프라딥타 게마는 "시스템이 추론한다고 말하는 것이 반드시 실제로 생각하는 것과 일치하는 것은 아니다"라고 말합니다.
출처: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html
댓글 (0)