
Компания Google только что анонсировала новую модель искусственного интеллекта под названием Gemini 2.5 Computer Use, которая позволяет искусственному интеллекту напрямую взаимодействовать с веб-браузером, как реальный пользователь.

Возможности этого искусственного интеллекта включают в себя нажатие клавиш, прокрутку, набор текста, перетаскивание и навигацию по веб-сайтам.

Это важный шаг вперед на пути к тому, чтобы ИИ мог выполнять задачи в интерфейсах без API или прямых подключений.

По данным Google, Gemini 2.5 Computer Use оснащен возможностями визуального понимания и рассуждения для понимания отображаемого на экране контента и выполнения пользовательских запросов, таких как заполнение форм, отправка данных или навигация по пользовательским интерфейсам (тестирование пользовательского интерфейса).

Некоторые более ранние версии этой модели были протестированы во внутренних проектах, таких как AI Mode и Project Mariner, где ИИ может автоматически выполнять задачи в браузере, например, добавлять продукты в корзину на основе предоставленного пользователем списка ингредиентов.

Примечательно, что заявление Google поступило всего через день после того, как OpenAI представила серию новых приложений для ChatGPT на своем мероприятии Dev Day, в то время как Anthropic также представила функцию «использования компьютера» для своей модели Claude в прошлом году.

По данным Google, Gemini 2.5 Computer Use превосходит конкурирующие модели во многих веб- и мобильных тестах производительности.

Однако, в отличие от ChatGPT Agent или Claude, модель Google работает только в среде браузера и не оптимизирована для полного контроля над операционной системой компьютера.

В настоящее время он поддерживает 13 типов действий, включая открытие браузера, ввод текста, перетаскивание и перемещение элементов интерфейса. Модель доступна разработчикам через Google AI Studio и Vertex AI, а пользователи могут посмотреть живую демонстрацию на Browserbase, где ИИ выполняет такие задачи, как «воспроизвести 2048» или «найти спорные темы на Hacker News».
Источник: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
Комментарий (0)