ChatGPT는 기계-인간 식별의 중요한 테스트를 통과했습니다.

GPT-4.5는 OpenAI가 만든 가장 큰 모델입니다. 출처: The Verge .

캘리포니아 대학교 샌디에이고 캠퍼스 인지 과학과 의 새로운 연구는 인공지능 분야에서 이정표를 세웠습니다. OpenAI의 GPT-4.5 모델은 "개성" 기반 상호작용 방식을 사용하여 튜링 테스트에서 뛰어난 성과를 달성했습니다.

이는 지금까지 인간과 가장 유사한 AI 대화 시스템으로 여겨지며, 사회적 지능 분야에서 많은 잠재적 응용 분야를 열어줄 것으로 기대됩니다.

OpenAI는 GPT-4.5를 "사전 학습 및 사후 학습 확장에 있어 큰 도약"이라고 홍보합니다. OpenAI가 구축한 모델 중 가장 큰 규모이며, 이전 버전을 능가하는 크기와 연산 능력을 갖추고 있습니다.

OpenAI가 2월 27일에 공식 블로그에 올린 글에 따르면, GPT-4.5는 발표 당일에 ChatGPT Pro 사용자를 대상으로 배포되기 시작했습니다.

AI가 인간을 속일 수 있을까?

이 실험은 1960년대 챗봇 ELIZA, Meta AI의 LLaMa-3.1-405B, 그리고 OpenAI의 GPT-4o와 GPT-4.5, 이렇게 네 가지 대표적인 AI 시스템을 비교했습니다. 연구팀은 Prolific과 같은 온라인 플랫폼에서 총 500명의 사용자를 대상으로 각각 250명의 참가자를 대상으로 두 가지 독립적인 실험을 설계했습니다. 다양한 표본을 확보하기 위해 참가자들은 연령, 성별, 교육 수준이 서로 달랐습니다.

4가지 대표적인 AI 시스템 비교표. 출처: AIbase

이 테스트는 전통적인 튜링 형식을 사용합니다. 각 참가자는 텍스트 인터페이스를 통해 두 명의 피험자(한 명은 인간, 한 명은 AI)와 5분 동안 채팅을 한 후, 누가 인간인지 평가합니다.

결과는 놀라웠습니다. GPT-4.5는 최대 73%의 "튜링 테스트 통과"율을 달성하여 인간 평균(60~70%)을 뛰어넘었습니다. AI 모델이 표준 튜링 테스트를 실제로 "통과"한 것은 이번이 처음입니다. 반면, GPT-4o는 약간 낮은 점수를 받았고, LLaMa-3.1-405B는 일부 상황에서 인간 성능에 근접하거나 그에 근접했으며, ELIZA는 크게 미달했습니다.

인간처럼 상호 작용할 수 있는 능력

GPT-4.5의 가장 두드러진 특징은 언어 유창함뿐만 아니라 감정을 표현하고 대화 상대의 미묘한 차이에 맞춰 반응하는 능력이었습니다. 많은 참가자가 GPT-4.5를 "친절하고" "진정성 있다"고 평가했습니다.

특히, 사용자가 혼란스러워하거나 스트레스를 받는 것처럼 보일 때 GPT-4.5는 유머러스하거나 위안이 되는 답변을 제공하여 많은 사람이 실제 사람과 채팅하고 있다고 믿게 만들었습니다.

테스트 중 두 피험자(한 명은 AI, 한 명은 인간) 간의 대화. 사진: UC 샌디에이고 .

반면, LLaMa-3.1-405B는 기술적으로 뛰어나지만 GPT-4.5보다 표현력이 떨어지고 맥락 적응력도 떨어집니다. GPT-4o는 강력하지만 개인화 및 상황 반응 적응 측면에서 뒤떨어집니다.

GPT-4.5의 획기적인 발전은 가상 튜터부터 심리 지원, 고객 관리에 이르기까지 다양한 실용적인 활용 가능성을 열어줄 수 있습니다. 그러나 AI가 점점 더 인간과 유사해짐에 따라, 현실과 가상을 구분하고 이 기술의 사용 방식을 규제하는 것은 중요한 사회적 과제가 될 것입니다.

이 연구는 AI의 급속한 발전 속에서 이루어졌습니다. GPT-4.5의 성공은 OpenAI의 기술적 승리일 뿐만 아니라, 인간과 기계의 관계에 대한 심오한 질문을 제기합니다. 한 테스터는 마치 친구와 이야기하는 것 같았다고 말했습니다. 하지만 알고 보니 모든 것이 코드 몇 줄에 불과했습니다. 인간과 AI의 대화는 이제 막 시작되었을지도 모릅니다.

출처: https://znews.vn/chatgpt-da-vuot-qua-bai-danh-gia-quan-trong-xac-dinh-may-nguoi-post1542945.html