
최근 몇 년 동안 인공지능 프로그램은 많은 획기적인 성과를 거두었습니다. - 사진: 로이터
대규모 언어 모델(LLM)의 입력 데이터부터 출력 결과에 이르기까지 전체 과정을 관찰하는 것은 불가능합니다.
이해를 돕기 위해 과학자들은 이러한 프로그램의 작동 방식을 설명할 때 "추론"과 같은 일반적인 용어를 사용했습니다. 또한 이러한 프로그램이 인간처럼 "생각하고", "추론하고", "이해할 수 있다"고 말합니다.
인공지능의 능력을 과장하는 것.
ZDNET은 9월 6일 보도에서 지난 2년간 많은 AI 업계 경영진들이 단순한 기술적 성과를 과장하기 위해 과장된 표현을 사용해왔다고 전했다.
2024년 9월, OpenAI는 o1 추론 모델이 "어려운 질문에 직면했을 때 인간이 오랜 시간 생각하는 방식과 유사하게 문제를 해결할 때 일련의 추론 과정을 사용한다"고 발표했습니다.
하지만 인공지능 과학자들은 이에 동의하지 않습니다. 그들은 인공지능이 인간과 같은 지능을 갖고 있지 않다고 주장합니다.
미국 애리조나 주립대학교 연구팀이 arXiv 데이터베이스를 기반으로 진행한 연구에서는 간단한 실험을 통해 인공지능의 추론 능력을 검증했습니다.
연구 결과는 "사고의 연쇄를 통한 추론은 취약한 환상"이며, 진정한 논리적 메커니즘이 아니라 단지 정교한 패턴 매칭의 한 형태일 뿐임을 보여주었다.
"생각의 사슬"(CoT)이라는 용어를 사용하면 AI가 최종 답을 내놓을 뿐만 아니라 GPT-o1이나 DeepSeek V1 모델처럼 논리적 추론의 각 단계를 제시할 수도 있습니다.

OpenAI의 GPT-2 언어 모델 일러스트 - 사진: ECHOCRAFTAI
AI가 실제로 무엇을 하는지 확인해 보세요.
연구팀은 대규모 분석 결과 LLM이 논리적 추론 과정보다는 의미론과 표면적인 단서에 더 많이 의존하는 경향이 있다고 밝혔습니다.
"LLM은 학습된 입력 연관성을 기반으로 표면적인 논리 체인을 구성하는데, 이는 기존의 추론 방법이나 익숙한 패턴에서 벗어나는 작업에서는 종종 실패합니다."라고 연구팀은 설명했습니다.
LLM이 단순히 패턴만 일치시킬 뿐 실제 추론은 하지 않는다는 가설을 검증하기 위해 연구팀은 2019년 OpenAI에서 공개한 오픈 소스 모델인 GPT-2를 학습시켰습니다.
이 모델은 처음에는 영어 알파벳 26자를 사용하여 매우 간단한 작업, 예를 들어 "APPLE"을 "EAPPL"로 바꾸는 것과 같은 작업을 수행하도록 훈련되었습니다. 그런 다음 팀은 작업을 변경하고 GPT-2에게 해당 작업을 처리하도록 요청했습니다.
결과에 따르면 훈련 데이터에 포함되지 않은 작업의 경우 GPT-2는 CoT를 사용하여 정확하게 해결할 수 없었습니다.
대신, 이 모델은 학습된 작업을 최대한 유사하게 적용하려고 시도합니다. 따라서 모델의 "추론"은 논리적으로 들릴 수 있지만 결과는 종종 잘못됩니다.
그 그룹은 LLM의 답변에 지나치게 의존하거나 맹목적으로 신뢰해서는 안 된다고 결론지었는데, 그 이유는 LLM이 "매우 설득력 있게 들리는 허튼소리"를 늘어놓을 수 있기 때문이다.
그들은 또한 인공지능의 진정한 본질을 이해하고, 과장된 홍보를 피하며, 인공지능이 인간처럼 추론할 수 있다는 주장을 중단해야 한다고 강조했습니다.
출처: https://tuoitre.vn/nghien-cuu-moi-ai-khong-suy-luan-nhu-con-nguoi-20250907152120294.htm






댓글 (0)