ChatGPT '환각'에 대한 경고

새롭게 출시된 두 가지 ChatGPT 모델은 이전 세대보다 정보 조작 빈도가 더 높습니다. 사진: 파이어플라이 .

GPT-4.1을 발표한 지 불과 이틀 만에 OpenAI는 o3와 o4-mini라는 두 가지 새로운 모델을 공식 출시했습니다. 두 모델 모두 뛰어난 추론 성능을 보여주며, 여러 가지 강력한 개선 사항을 포함하고 있습니다.

하지만 TechCrunch 에 따르면, 이 두 가지 새로운 모델은 여전히 "환각" 또는 정보 조작의 문제를 겪고 있습니다. 사실, 이 모델들은 OpenAI의 기존 모델들보다 더 심각한 "환각" 문제를 겪고 있습니다.

IBM에 따르면, 환각이란 대규모 언어 모델(LLM)(일반적으로 챗봇이나 컴퓨터 비전 도구)이 인간이 존재하지 않거나 인식할 수 없는 데이터 패턴을 수신하여 무의미하거나 오해의 소지가 있는 결과를 생성하는 경우를 말합니다.

즉, 사용자는 AI에게 훈련 데이터를 기반으로 정확한 결과를 도출해 달라고 요청하는 경우가 많습니다. 그러나 경우에 따라 AI의 결과가 정확한 데이터를 기반으로 하지 않아 "환상적인" 응답을 하게 됩니다.

OpenAI는 최신 보고서에서 o3가 PersonQA에서 질문의 33%에 답변할 때 "환각"을 느꼈다는 사실을 발견했습니다. PersonQA는 모델이 인간에 대해 갖는 지식의 정확도를 측정하는 회사의 내부 벤치마크입니다.

비교하자면, 이는 OpenAI의 이전 추론 모델인 o1과 o3-mini의 "환각" 발생률의 두 배에 달하는 수치입니다. o1과 o3-mini는 각각 16%와 14.8%의 환각을 경험했습니다. 한편, O4-mini 모델은 PersonQA에서 더 낮은 성능을 보이며 48%의 환각을 경험했습니다.

더욱 우려스러운 것은 "ChatGPT의 아버지"가 왜 이런 일이 일어나는지 정확히 알지 못한다는 것입니다. 특히, OpenAI는 o3 및 o4-mini에 대한 기술 보고서에서 "추론 모델이 확장됨에 따라 '환상'이 악화되는 이유를 이해하기 위해서는 추가 연구가 필요하다"고 명시했습니다.

o3와 o4-mini는 프로그래밍 및 수학 관련 과제를 포함한 일부 영역에서 더 나은 성능을 보였습니다. 그러나 "일반화보다 더 많은 진술을 해야 했기 때문에" 두 모델 모두 "더 정확한 진술을 내놓는 반면, 더 많은 부정확한 진술을 내놓는" 문제점을 보였습니다.

출처: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html