OpenAI의 챗봇은 새로운 기술로 더욱 발전하고 있습니다. 사진: 뉴욕 타임스 |
2024년 9월, OpenAI는 o1 모델을 통합한 ChatGPT 버전을 출시했습니다. 이 모델은 수학, 과학 , 컴퓨터 프로그래밍과 관련된 작업에 대해 추론할 수 있습니다.
이전 버전의 ChatGPT와는 달리, 새로운 기술은 복잡한 문제에 대한 해결책을 "생각"한 후에야 응답을 내놓을 것입니다.
OpenAI 이후 Google, Anthropic, DeepSeek 등 많은 경쟁사들도 유사한 추론 모델을 도입했습니다. 완벽하지는 않지만, 여전히 많은 개발자들이 신뢰하는 챗봇 업그레이드 기술입니다.
AI 추론 방법
기본적으로 추론이란 챗봇이 사용자가 제시한 문제를 해결하는 데 더 많은 시간을 할애할 수 있다는 것을 의미합니다.
캘리포니아 대학교 버클리 캠퍼스의 컴퓨터 과학 교수인 댄 클라인은 뉴욕 타임스와의 인터뷰에서 "추론은 시스템이 질문을 받은 후에 더 많은 작업을 수행하는 방식입니다."라고 말했습니다.
추론 시스템은 문제를 개별 단계로 분해하거나 시행착오를 통해 해결할 수 있습니다.
처음 출시되었을 때, ChatGPT는 정보를 추출하고 종합하여 질문에 즉시 답변할 수 있었습니다. 반면, 추론 시스템은 문제를 해결하고 응답하는 데 몇 초(심지어 몇 분) 더 걸렸습니다.
![]() |
고객 케어 챗봇에서 o1 모델의 추론 과정 예시. 사진: OpenAI . |
경우에 따라 추론 시스템은 문제에 대한 접근 방식을 변경하여 해결책을 지속적으로 개선합니다. 또는 모델은 최적의 선택을 하기 전에 여러 해결책을 시도하거나 이전 응답의 정확성을 테스트할 수도 있습니다.
일반적으로 추론 시스템은 질문에 대한 모든 가능한 답을 고려합니다. 이는 초등학생들이 수학 문제를 푸는 데 가장 적합한 방법을 선택하기 전에 종이에 여러 가지 선택지를 적는 것과 유사합니다.
뉴욕 타임스 에 따르면, AI는 이제 어떤 주제에 대해서도 추론할 수 있습니다. 하지만 이러한 추론은 수학, 과학, 그리고 컴퓨터 프로그래밍 관련 문제에서 가장 효과적일 것입니다.
이론 시스템은 어떻게 훈련되나요?
일반 챗봇에서도 사용자는 프로세스에 대한 설명을 요청하거나 응답의 정확성을 확인할 수 있습니다. 실제로 많은 ChatGPT 학습 데이터셋에는 이미 문제 해결 프로세스가 포함되어 있습니다.
추론 시스템은 사용자의 요청 없이도 특정 동작을 수행할 수 있을 때 더욱 발전합니다. 이 과정은 더욱 복잡하고 광범위합니다. 기업들은 이 시스템이 인간의 사고와 유사한 방식으로 작동하기 때문에 "추론"이라는 용어를 사용합니다.
OpenAI를 비롯한 많은 기업들은 오늘날 챗봇을 개선하는 가장 좋은 방법은 추론 시스템이라고 확신하고 있습니다. 오랫동안 이들은 챗봇이 인터넷에서 최대한 많은 정보를 학습하는 것이 가장 효과적이라고 믿어 왔습니다.
2024년까지 AI 시스템은 인터넷에 있는 거의 모든 텍스트를 처리하게 될 것입니다. 즉, 기업들은 추론 시스템을 포함하여 챗봇을 업그레이드하기 위한 새로운 솔루션을 찾아야 할 것입니다.
![]() |
스타트업 DeepSeek은 OpenAI보다 비용이 저렴한 추론 모델로 한때 "큰 반향을 일으켰다". 사진: 블룸버그 |
작년부터 OpenAI와 같은 회사는 강화 학습이라는 기술에 집중해 왔습니다. 강화 학습은 일반적으로 수개월이 걸리는 과정으로, 시행착오를 거쳐 AI가 행동을 학습하는 방식입니다.
예를 들어, 시스템은 수천 개의 문제를 해결함으로써 정답을 얻는 최적의 방법을 학습할 수 있습니다. 이를 바탕으로 연구진은 시스템이 정답과 오답을 학습할 수 있도록 돕는 복잡한 피드백 메커니즘을 구축했습니다.
OpenAI의 연구원인 제리 트워렉은 "개를 훈련하는 것과 같습니다. 잘되면 간식을 주고, 잘 안 되면 '저 개는 나쁘다'라고 말하는 거죠."라고 말했습니다.
AI가 미래일까?
뉴욕 타임스 에 따르면 강화 학습은 옳고 그름이 명확하게 정의된 수학, 과학, 컴퓨터 프로그래밍 문제에 효과적입니다.
반면, 강화 학습은 좋고 나쁨을 구분하기 어려운 글쓰기, 철학, 윤리 분야에서는 효과적이지 않습니다. 하지만 연구진은 이 기술이 수학 이외의 문제에서도 AI 성능을 향상시킬 수 있다고 말합니다.
Anthropic의 최고 과학 책임자인 Jared Kaplan은 "시스템은 긍정적이고 부정적인 결과로 이어지는 경로를 학습하게 될 것"이라고 말했습니다.
![]() |
AI 모델 클로드를 소유한 스타트업 Anthropic의 웹사이트. 사진: 블룸버그 |
강화 학습과 추론 시스템은 서로 다른 개념이라는 점에 유의해야 합니다. 구체적으로, 강화 학습은 추론 시스템을 구축하는 방법입니다. 이는 챗봇이 추론 기능을 갖추기 위한 최종 훈련 단계입니다.
아직 비교적 새로운 분야이기 때문에 과학자들은 추론형 챗봇이나 강화 학습이 AI가 인간처럼 생각하는 데 도움을 줄 수 있는지 확신할 수 없습니다. 현재 AI 훈련 트렌드 중 상당수가 초기에는 매우 빠르게 발전하다가 이후 둔화된다는 점에 주목할 필요가 있습니다.
더욱이, 추론 챗봇은 여전히 실수를 할 수 있습니다. 시스템은 확률에 따라 인터넷에서 얻은 데이터든 강화 학습을 통해 얻은 데이터든, 학습한 데이터와 가장 유사한 프로세스를 선택합니다. 따라서 챗봇은 여전히 잘못되거나 비합리적인 해결책을 선택할 수 있습니다.
출처: https://znews.vn/ai-ly-luan-nhu-the-nao-post1541477.html
댓글 (0)