Игра Super Mario бросает вызов интеллекту ИИ

По данным TechCrunch , многие считают , что покемоны — самое сложное испытание для искусственного интеллекта (ИИ). Но на этом испытания ИИ не заканчиваются: недавно исследователи из Калифорнийского университета в Сан-Диего (США) запустили новый челлендж — игру Super Mario Bros. Результаты показывают, что не все ИИ могут успешно «достичь финишной черты».

Trí khôn của AI đang được thử thách bằng game Super Mario - Ảnh 1. — Игры Марио используются для тестирования производительности крупных моделей искусственного интеллекта

Super Mario представляет собой сложную задачу для моделей искусственного интеллекта

Компания Hao AI Labs внедрила искусственный интеллект в мир Марио, чтобы протестировать возможности ведущих современных языковых моделей. Результаты показали, что лучшим оказался Claude 3.7 от Anthropic, за ним следует Claude 3.5. В то же время, Gemini 1.5 Pro от Google и GPT-4o от OpenAI столкнулись с большими трудностями при игре по отдельности.

Стоит отметить, что это не оригинальная Super Mario Bros. 1985 года. Игра работает на эмуляторе, интегрированном с фреймворком GamingAgent, позволяющим ИИ управлять маленьким Марио. GamingAgent предоставляет ИИ базовые инструкции и скриншоты игры. Затем ИИ генерирует код на Python для управления персонажем.

По словам Hao AI, игра заставляет модели «учиться» планировать сложные ходы и выстраивать стратегии. Примечательно, что «логически мыслящие» модели, такие как o1 от OpenAI, которые показывают лучшие результаты в большинстве тестов, испытывают больше трудностей, чем «нелогически мыслящие» модели.

Причина в том, что модели рассуждений требуют времени для принятия решений, в то время как Super Mario Bros. требует быстрой реакции. Секунда промедления может привести к провалу.

Использование игр для оценки ИИ существует уже давно, но многие эксперты скептически относятся к точности этого метода. Они утверждают, что игры слишком просты и предоставляют слишком много данных для обучения ИИ, не отражая его истинных возможностей в реальном мире.

Андрей Карпати, научный сотрудник OpenAI, называет это «кризисом оценки». Он признает, что в настоящее время не существует точной метрики для оценки возможностей ИИ.

Хотя споры о точности оценки ИИ с помощью игр продолжаются, наблюдение за «сражениями» ИИ в мире Марио по-прежнему остается интересным опытом и помогает людям лучше понять возможности ИИ.

Super Mario представляет собой сложную задачу для моделей искусственного интеллекта

Комментарий (0)