수학자들이 인공지능을 이기고자 하는 놀라운 만남.

5월 중순 어느 주말, 수학자들의 비공개 회의가 열렸습니다. 세계 최고 수준의 수학자 30명이 미국 캘리포니아 버클리로 비밀리에 모여 '추론 능력'을 갖춘 챗봇과의 대결에 참여했습니다. 이 챗봇은 수학자들이 직접 만든 문제들을 풀도록 요청받았고, 이를 통해 문제 해결 능력을 시험받았습니다.

이틀 연속으로 교수 수준의 질문 공세를 퍼부은 후, 수학자들은 이 챗봇이 역사상 가장 어려운 문제들 중 일부를 해결할 수 있다는 사실에 놀라움을 금치 못했다.

버지니아 대학교 교수이자 이번 회의의 의장 겸 심사위원인 켄 오노는 "동료들이 이 대규모 언어 모델이 수학적 천재성에 근접하고 있다고 단언하는 것을 봤습니다."라고 사이언티픽 아메리칸에 전했습니다.

앞서 언급한 챗봇은 복잡한 추론을 위해 설계된 대규모 언어 모델(LLM)인 o4-mini 를 기반으로 합니다. OpenAI에서 개발한 이 모델은 정교한 추론 단계를 수행하도록 훈련되었습니다. 구글에서 개발한 Gemini 2.5 Flash라는 유사한 모델 또한 비슷한 기능을 가지고 있습니다.

이전 ChatGPT LLM 모델들과 마찬가지로 o4-mini는 텍스트 문자열에서 다음 단어를 예측하는 방법을 학습합니다. 하지만 o4-mini는 더 가볍고 유연한 버전이며, 심층 데이터로 학습되고 사람의 세심한 조정을 거쳐 이전 모델들이 도달할 수 없었던 수학적 문제까지 해결할 수 있다는 점에서 차이가 있습니다.

o4-mini의 성능을 검증하고 평가하기 위해 OpenAI는 LLM 모델 테스트 전문 비영리 단체인 Epoch AI에 의뢰하여 이전에 공개되지 않은 300개의 수학 문제를 제작했습니다. 기존 LLM 모델은 많은 복잡한 문제를 해결할 수 있지만, 완전히 새로운 문제에 직면했을 때는 대부분 2% 미만의 정답률만 보였습니다. 이는 기존 LLM 모델이 진정한 추론 능력이 부족함을 보여줍니다.

Epoch AI는 최근 진행 중인 평가 프로젝트의 책임자로 젊은 수학 박사 엘리엇 글레이저를 영입했습니다. FrontierMath 라는 이름의 이 새로운 프로젝트는 2024년 9월에 시작될 예정입니다.

이 프로젝트는 학부 및 대학원 수준부터 심층 연구까지 네 가지 난이도에 걸쳐 새로운 문제들을 수집했습니다. 2025년 4월, 글레이저는 o4-mini가 문제의 약 20%를 해결할 수 있다는 것을 발견했습니다. 따라서 그는 즉시 난이도를 4단계로 상향 조정하여, 최고 수준의 수학자들조차 어려움을 느낄 만한 문제들을 해결하도록 요구했습니다.

참가자들은 기밀 유지 계약서에 서명해야 했으며, 암호화된 Signal 앱을 통해서만 소통해야 했습니다. 이메일을 사용할 경우 LLM이 이메일을 스캔하여 내용을 "파악"할 수 있으므로 평가 데이터가 조작될 가능성이 있기 때문입니다.

o4-mini가 풀지 못하는 문제가 나올 때마다 문제 출제자는 7,500달러의 상금을 받게 됩니다.

초기 워킹 그룹은 느리지만 꾸준히 질문을 도출해냈습니다. 그러나 글레이저는 속도를 내기 위해 5월 17일과 18일 이틀간 대면 회의를 개최하기로 결정했습니다. 30명의 수학자가 참석하여 6명씩 그룹을 이루고, 문제를 푸는 것이 아니라 인공지능이 풀 수 없는 문제를 고안하는 경쟁을 펼쳤습니다.

5월 17일 저녁, 켄 오노는 챗봇 때문에 좌절감을 느끼기 시작했습니다. 챗봇은 예상을 훨씬 뛰어넘는 수학적 능력을 보여주었고, 팀은 이를 "함정"에 빠뜨리는 데 어려움을 겪었습니다. 그는 "업계 전문가들이 정수론 분야의 미해결 문제, 즉 박사 학위 논문에 적합한 문제로 인식할 만한 문제를 생각해냈습니다."라고 회상했습니다.

그 결과, 그가 o4-mini에게 질문했을 때, 챗봇이 단 10분 만에 분석하고 추론하여 정확한 해결책을 제시하는 것을 보고 깜짝 놀랐습니다. 구체적으로, 처음 2분 동안 챗봇은 관련 자료를 모두 조사하고 파악했습니다. 그런 다음, 더 간단한 버전의 문제를 풀어보면서 접근 방식을 학습해 보자고 제안했습니다.

5분 후, 챗봇은 자신감 넘치고 다소 오만한 어조로 정답을 제시했다. 오노는 "챗봇이 능글맞게 굴기 시작했어요."라며 "심지어 '인용할 필요 없어요. 제가 이미 미스터리 숫자를 계산했거든요!'라고 덧붙이기까지 했죠."라고 회상했다.

인공지능과의 대결에서 패배한 오노는 5월 18일 아침, 곧바로 시그널을 통해 팀에 경고 메시지를 보냈다. "이런 모델을 상대할 준비가 전혀 되어 있지 않았습니다."라고 그는 말했다. "컴퓨터 모델에서 이런 종류의 추론은 본 적이 없었습니다. 마치 진짜 과학자 처럼 생각하더군요. 정말 무서웠습니다."

수학자들은 결국 o4-mini를 당황하게 만든 10개의 문제를 찾아내는 데 성공했지만, 단 1년 만에 인공지능이 발전한 속도에 놀라움을 감추지 못했다.

오노는 o4-mini와의 협업 경험을 매우 재능 있는 동료와 함께 일하는 것에 비유했습니다. 런던 수학과학연구소의 수학자이자 수학에 인공지능을 적용하는 데 선구적인 역할을 한 양후이허는 "이것이야말로 아주 뛰어난 대학원생이 할 수 있는 일입니다. 아니, 그 이상입니다."라고 평했습니다.

또한 AI는 인간보다 훨씬 빠르게 작동한다는 점에 주목할 필요가 있습니다. 인간이 문제를 해결하는 데 몇 주 또는 몇 달이 걸리는 반면, o4-mini는 단 몇 분 만에 해결합니다.

o4-mini와의 두뇌 싸움을 둘러싼 흥분과 함께 상당한 우려도 제기되었습니다. 오노와 허는 모두 o4-mini의 능력이 과신으로 이어질 수 있다고 경고했습니다. 허는 "우리는 귀납적 증명, 반증법, 그리고 이제는 압도적인 힘에 의한 증명까지 갖게 되었습니다."라고 말하며, "충분한 확신을 가지고 무언가를 주장하면 상대방은 위축될 것입니다. o4-mini는 이러한 유형의 증명을 완벽하게 구사하는 것 같습니다. o4-mini가 말하는 것은 무엇이든 매우 확실해 보입니다."라고 덧붙였습니다.

회의가 마무리되면서 수학자들은 수학의 미래에 대해 깊이 생각하기 시작했습니다. 그들은 세계 최고의 수학자들도 풀 수 없는 질문, 즉 "제5의 수준"의 가능성에 대해 논의했습니다. 인공지능이 그 수준에 도달한다면 수학자의 역할은 극적으로 바뀔 것입니다. 수학자들은 마치 교수가 대학원생을 지도하는 것처럼, 인공지능과 상호작용하고 그들의 추론 과정을 이끌어 새로운 수학적 진리를 발견 하도록 돕는 질문자가 될 수도 있습니다.

오노 교수는 “일반 인공지능이 결코 등장하지 않을 것이며, 단지 컴퓨터일 뿐이라고 생각하는 것은 심각한 오산이라고 동료들에게 오랫동안 말해왔습니다.”라고 밝혔습니다. “당황하고 싶지는 않지만, 어떤 면에서는 이러한 대규모 언어 모델들이 이미 세계 최고의 대학원생들보다 뛰어난 성능을 보이기 시작했습니다.”

(베트남+)

출처: https://www.vietnamplus.vn/cuoc-gap-go-dac-biet-noi-cac-nha-toan-hoc-tim-cach-danh-bai-tri-tue-nhan-tao-post1043183.vnp