모델이 강할수록, "생각"은 약해지는 것인가?
Apple 연구원들은 최근 발간한 보고서에서 하노이 탑 이나 강 건너기 문제와 같이 점점 더 어려워지는 논리 문제를 다룰 때 대규모 추론 모델(LRM)의 성능을 평가했습니다.
결과는 충격적이었습니다. 고도로 복잡한 문제에 직면했을 때 고급 AI 모델의 정확도는 감소했을 뿐만 아니라 "완전히 붕괴"되었습니다.
더욱 우려스러운 점은 성능이 감소하기 전에 모델이 추론 노력을 줄이기 시작한다는 것입니다. 이는 문제가 어려울 때 더 많은 사고가 필요한 반직관적인 행동입니다.
많은 경우, 적절한 알고리즘이 주어졌더라도 모델은 해결책을 도출하지 못합니다. 이는 새로운 환경에 적응하고 규칙을 적용하는 모델의 능력에 심각한 한계가 있음을 보여줍니다.
"일반 이론"의 도전
이 연구에 대해, AI의 진정한 능력에 회의적인 입장을 취하는 사람 중 한 명인 미국의 학자 게리 마커스는 애플의 연구 결과를 "매우 파괴적"이라고 불렀습니다.
그는 개인 Substack 뉴스레터에 "대규모 언어 모델(LLM)이 AGI로 가는 직접적인 경로라고 생각하는 사람은 자기 자신을 속이고 있는 것"이라고 썼습니다.
영국 서리 대학교 인간 중심 AI 연구소의 앤드류 로고이스키 전문가도 같은 견해를 밝히며, 이번 발견은 기술 산업이 "막다른 길"에 접어들고 있음을 시사한다고 말했습니다. "모델이 단순하고 평균적인 문제에서만 잘 작동하지만, 난이도가 높아지면 완전히 실패한다면, 현재 접근 방식에 문제가 있다는 것이 분명합니다."
애플이 특히 강조한 점 중 하나는 "일반적 추론"이 부족하다는 점이었습니다. 일반 추론이란 특정 상황에서 얻은 이해를 유사한 상황으로 확장하는 능력을 말합니다.
현재 모델은 일반적으로 사람이 하는 방식으로 지식을 전달할 수 없을 때 "암기 학습"에 취약합니다. 즉, 패턴을 반복하는 데는 강하지만 논리적 또는 연역적 사고에는 약합니다.
실제로 이 연구에서는 대규모 이론적 모델이 간단한 문제는 반복적으로 올바르게 해결하지만, 조금 더 복잡한 문제에 대해서는 처음부터 잘못된 솔루션을 선택하여 계산 리소스를 낭비한다는 사실을 발견했습니다.
이 보고서는 OpenAI의 o3, Google의 Gemini Thinking, Claude 3.7 Sonnet-Thinking, DeepSeek-R1을 포함한 다양한 주요 모델을 테스트했습니다. Anthropic, Google, DeepSeek은 논평 요청에 응답하지 않았지만, OpenAI는 논평을 거부했습니다.
애플의 연구는 언어, 시각, 빅데이터 분야에서 AI의 성과를 부정하는 것이 아닙니다. 하지만 그동안 간과되어 온 맹점을 드러냅니다. 바로 진정한 지능을 구현하는 핵심 요소인 의미 있는 추론 능력입니다.
출처: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
댓글 (0)