Vietnam.vn - Nền tảng quảng bá Việt Nam

ИИ Google Gemini 2.5 работает с браузером как настоящий человек

Компания Google анонсировала модель искусственного интеллекта Gemini 2.5 Computer Use, которая позволяет искусственному интеллекту нажимать кнопки, печатать, прокручивать и перетаскивать объекты так же, как люди.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống10/10/2025

Компания Google только что анонсировала новую модель искусственного интеллекта под названием Gemini 2.5 Computer Use, которая позволяет искусственному интеллекту напрямую взаимодействовать с веб-браузером, как реальный пользователь.

Возможности этого искусственного интеллекта включают в себя нажатие клавиш, прокрутку, набор текста, перетаскивание и навигацию по веб-сайтам.

Это важный шаг вперед на пути к тому, чтобы ИИ мог выполнять задачи в интерфейсах без API или прямых подключений.

По данным Google, Gemini 2.5 Computer Use оснащен возможностями визуального понимания и рассуждения для понимания отображаемого на экране контента и выполнения пользовательских запросов, таких как заполнение форм, отправка данных или навигация по пользовательским интерфейсам (тестирование пользовательского интерфейса).

Некоторые более ранние версии этой модели были протестированы во внутренних проектах, таких как AI Mode и Project Mariner, где ИИ может автоматически выполнять задачи в браузере, например, добавлять продукты в корзину на основе предоставленного пользователем списка ингредиентов.

Примечательно, что заявление Google поступило всего через день после того, как OpenAI представила серию новых приложений для ChatGPT на своем мероприятии Dev Day, в то время как Anthropic также представила функцию «использования компьютера» для своей модели Claude в прошлом году.

По данным Google, Gemini 2.5 Computer Use превосходит конкурирующие модели во многих веб- и мобильных тестах производительности.

Однако, в отличие от ChatGPT Agent или Claude, модель Google работает только в среде браузера и не оптимизирована для полного контроля над операционной системой компьютера.

В настоящее время он поддерживает 13 типов действий, включая открытие браузера, ввод текста, перетаскивание и перемещение элементов интерфейса. Модель доступна разработчикам через Google AI Studio и Vertex AI, а пользователи могут посмотреть живую демонстрацию на Browserbase, где ИИ выполняет такие задачи, как «воспроизвести 2048» или «найти спорные темы на Hacker News».

Gemini легко проходит тест браузера «Я не робот».

Источник: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html


Комментарий (0)

No data
No data

Та же категория

Сборная Вьетнама поднялась в рейтинге ФИФА после победы над Непалом, Индонезия находится под угрозой
Спустя 71 год после освобождения Ханой сохраняет свою историческую красоту в современном потоке.
71-я годовщина Дня освобождения столицы — пробуждение духа Ханоя и его решительного вступления в новую эпоху
Затопленные районы Лангшона, вид с вертолета

Тот же автор

Наследство

Фигура

Бизнес

No videos available

Текущие события

Политическая система

Местный

Продукт