По данным TechCrunch , многие считают , что покемоны — самое сложное испытание для искусственного интеллекта (ИИ). Но на этом испытания ИИ не заканчиваются: недавно исследователи из Калифорнийского университета в Сан-Диего (США) запустили новый челлендж — игру Super Mario Bros. Результаты показывают, что не все ИИ могут успешно «достичь финишной черты».
Игры Марио используются для тестирования производительности крупных моделей искусственного интеллекта
ФОТО: СКРИНШОТ TECHCRUNCH
Super Mario представляет собой сложную задачу для моделей искусственного интеллекта
Компания Hao AI Labs внедрила искусственный интеллект в мир Марио, чтобы протестировать возможности ведущих современных языковых моделей. Результаты показали, что лучшим оказался Claude 3.7 от Anthropic, за ним следует Claude 3.5. В то же время, Gemini 1.5 Pro от Google и GPT-4o от OpenAI столкнулись с большими трудностями при игре по отдельности.
Стоит отметить, что это не оригинальная Super Mario Bros. 1985 года. Игра работает на эмуляторе, интегрированном с фреймворком GamingAgent, позволяющим ИИ управлять маленьким Марио. GamingAgent предоставляет ИИ базовые инструкции и скриншоты игры. Затем ИИ генерирует код на Python для управления персонажем.
По словам Hao AI, игра заставляет модели «учиться» планировать сложные ходы и выстраивать стратегии. Примечательно, что «логически мыслящие» модели, такие как o1 от OpenAI, которые показывают лучшие результаты в большинстве тестов, испытывают больше трудностей, чем «нелогически мыслящие» модели.
Причина в том, что модели рассуждений требуют времени для принятия решений, в то время как Super Mario Bros. требует быстрой реакции. Секунда промедления может привести к провалу.
Использование игр для оценки ИИ существует уже давно, но многие эксперты скептически относятся к точности этого метода. Они утверждают, что игры слишком просты и предоставляют слишком много данных для обучения ИИ, не отражая его истинных возможностей в реальном мире.
Андрей Карпати, научный сотрудник OpenAI, называет это «кризисом оценки». Он признает, что в настоящее время не существует точной метрики для оценки возможностей ИИ.
Хотя споры о точности оценки ИИ с помощью игр продолжаются, наблюдение за «сражениями» ИИ в мире Марио по-прежнему остается интересным опытом и помогает людям лучше понять возможности ИИ.
Комментарий (0)