GPT-4.5는 OpenAI가 만든 가장 큰 모델입니다. 출처: The Verge . |
캘리포니아 대학교 샌디에이고 캠퍼스 인지 과학과 의 새로운 연구는 인공지능 분야에서 이정표를 세웠습니다. OpenAI의 GPT-4.5 모델은 "개성" 기반 상호작용 방식을 사용하여 튜링 테스트에서 뛰어난 성과를 달성했습니다.
이는 지금까지 나온 AI 대화 시스템 중 가장 인간과 유사한 것으로 여겨지며, 사회적 지능 분야에서 많은 잠재적 응용 분야를 열어줄 것으로 기대됩니다.
OpenAI는 GPT-4.5를 "사전 학습 및 사후 학습 확장에 있어 중요한 진전"이라고 홍보합니다. 이는 OpenAI가 구축한 모델 중 가장 큰 규모이며, 이전 버전을 능가하는 크기와 연산 능력을 갖추고 있습니다.
OpenAI가 2월 27일에 공식 블로그에 올린 글에 따르면, GPT-4.5는 발표 당일에 ChatGPT Pro 사용자를 대상으로 배포되기 시작했습니다.
AI가 인간을 속일 수 있을까?
이 실험은 1960년대 챗봇 ELIZA, Meta AI의 LLaMa-3.1-405B, 그리고 OpenAI의 GPT-4o와 GPT-4.5, 이렇게 네 가지 대표적인 AI 시스템을 비교했습니다. 연구팀은 Prolific과 같은 온라인 플랫폼에서 총 500명의 사용자를 대상으로 각각 250명의 참가자를 대상으로 두 가지 독립적인 실험을 설계했습니다. 다양한 표본을 확보하기 위해 참가자들은 연령, 성별, 교육 수준이 서로 달랐습니다.
![]() |
네 가지 대표적인 AI 시스템 비교표. 출처: AIbase |
이 테스트는 전통적인 튜링 형식을 사용합니다. 각 참가자는 텍스트 인터페이스를 통해 두 명의 피험자(한 명은 인간, 한 명은 AI)와 5분 동안 채팅을 한 후, 누가 인간인지 평가합니다.
결과는 놀라웠습니다. GPT-4.5는 73%의 "튜링 테스트 통과"율을 달성하여 인간 평균(60~70%)을 넘어섰습니다. AI 모델이 표준 튜링 테스트를 실제로 "통과"한 것은 이번이 처음입니다. 반면, GPT-4o는 약간 낮은 점수를 받았고, LLaMa-3.1-405B는 일부 상황에서 인간 성능에 근접하거나 그에 근접했으며, ELIZA는 훨씬 못 미쳤습니다.
인간처럼 상호 작용할 수 있는 능력
GPT-4.5를 돋보이게 하는 것은 언어의 유창함뿐만 아니라 감정을 표현하고 대화 상대의 미묘한 차이에 맞춰 반응하는 능력입니다. 많은 참가자가 GPT-4.5를 "친절하고" "진정성 있다"고 평가했습니다.
특히 사용자가 혼란스러워하거나 스트레스를 받는 것처럼 보일 때 GPT-4.5는 유머러스하거나 위안이 되는 답변을 하여 많은 사람이 실제 사람과 채팅하는 것처럼 믿게 만듭니다.
![]() |
테스트 중 두 피험자(한 명은 AI, 한 명은 인간) 간의 대화. 사진: UC 샌디에이고 . |
반면, LLaMa-3.1-405B는 기술적으로는 뛰어나지만 GPT-4.5보다 표현력이 떨어지고 맥락 적응력도 떨어집니다. GPT-4o는 강력하지만 개인화 및 상황 반응 적응 측면에서 뒤떨어집니다.
GPT-4.5의 획기적인 발전은 가상 튜터부터 심리 지원, 고객 서비스에 이르기까지 다양한 실용적인 활용 가능성을 열어줄 수 있습니다. 하지만 AI가 점점 더 인간과 유사해짐에 따라, 현실과 환상을 구분하고 기술 사용 방식을 규제하는 것은 중대한 사회적 과제가 될 것입니다.
이 연구는 AI의 급속한 발전 속에서 이루어졌습니다. GPT-4.5의 성공은 OpenAI의 기술적 승리일 뿐만 아니라, 인간과 기계의 관계에 대한 심오한 질문을 제기합니다. 한 테스터는 마치 친구와 이야기하는 것 같았다고 말했습니다. 하지만 결국 모든 것이 코드 몇 줄에 불과하다는 것을 깨달았습니다. 인간과 AI의 대화는 이제 막 시작되었을지도 모릅니다.
출처: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html
댓글 (0)