AI의 지능이 슈퍼 마리오 게임으로 도전받고 있다

TechCrunch 에 따르면, 많은 사람들 이 포켓몬이 인공지능(AI)에게 가장 어려운 시험이라고 생각합니다. 하지만 AI의 도전은 여기서 끝나지 않았습니다. 최근 캘리포니아 대학교 샌디에이고(미국) 연구원들은 슈퍼 마리오브라더스라는 게임으로 새로운 도전을 시작했습니다. 결과는 모든 AI가 '결승선에 도달'할 수 있는 것은 아니라는 것을 보여줍니다.

Trí khôn của AI đang được thử thách bằng game Super Mario - Ảnh 1. — 마리오 게임은 대규모 AI 모델의 성능을 테스트하는 데 사용되고 있습니다.

슈퍼 마리오는 AI 모델에 큰 도전을 제시합니다.

Hao AI Labs는 AI를 마리오 세계 에 투입하여 오늘날 주요 언어 모델의 성능을 테스트했습니다. 그 결과, Anthropic의 Claude 3.7이 가장 좋은 성능을 보였고, Claude 3.5가 그 뒤를 이었습니다. 반면, Google의 Gemini 1.5 Pro와 OpenAI의 GPT-4o는 단독으로 게임을 플레이하는 데 더 어려움을 겪었습니다.

이 게임은 1985년작 슈퍼 마리오 브라더스가 아니라는 점에 유의해야 합니다. 이 게임은 에뮬레이터에서 실행되며, GamingAgent 프레임워크와 통합되어 AI가 작은 마리오를 조종할 수 있도록 합니다. GamingAgent는 AI에게 기본적인 명령과 게임 스크린샷을 제공합니다. 그런 다음 AI는 캐릭터를 조종하는 Python 코드를 생성합니다.

Hao AI에 따르면, 이 게임은 모델이 복잡한 움직임을 계획하고 플레이 전략을 구축하는 방법을 '학습'하도록 합니다. 흥미롭게도, 대부분의 테스트에서 더 우수한 OpenAI의 o1과 같은 '추론' 모델은 '비추론' 모델보다 더 어려움을 겪습니다.

추론 모델은 결정을 내리는 데 시간이 걸리는 반면, 슈퍼 마리오 브라더스는 빠른 반사신경을 요구하기 때문에, 단 1초의 지연도 실패로 이어질 수 있다는 것이 그 이유입니다.

게임을 활용한 AI 평가는 오랫동안 존재해 왔지만, 많은 전문가들은 이 방법의 정확성에 회의적입니다. 그들은 게임이 너무 단순하고 AI를 훈련시키기에 너무 많은 데이터를 제공하기 때문에 현실 세계에서 AI의 진정한 역량을 제대로 반영하지 못한다고 주장합니다.

OpenAI의 연구 과학자 인 안드레이 카르파티는 이를 '평가 위기'라고 부릅니다. 그는 현재 AI 역량을 평가할 정확한 지표가 없다는 점을 인정합니다.

게임을 통해 AI를 평가하는 것의 정확성에 대한 논쟁이 여전히 남아 있지만, 마리오의 세계에서 AI가 '싸우는' 모습을 보는 것은 여전히 흥미로운 경험이며 사람들이 AI의 역량을 더 잘 이해하는 데 도움이 됩니다.