Штучний інтелект Google Gemini 2.5 працює з браузером як справжня людина

Google щойно анонсував нову модель штучного інтелекту під назвою Gemini 2.5 Computer Use, яка дозволяє штучному інтелекту безпосередньо взаємодіяти з веббраузером, як справжній користувач.

Можливості цього штучного інтелекту включають клацання, прокручування, введення тексту, перетягування та навігацію веб-сайтами.

Це важливий крок вперед у наданні можливості штучному інтелекту обробляти завдання на інтерфейсах без API або прямих з'єднань.

Згідно з Google, Gemini 2.5 Computer Use оснащений можливостями візуального розуміння та міркування для розуміння екранного вмісту та виконання запитів користувачів, таких як заповнення форм, надсилання даних або навігація по інтерфейсах користувача (тестування інтерфейсу користувача).

Деякі попередні версії цієї моделі були протестовані у внутрішніх проектах, таких як AI Mode та Project Mariner, де ШІ може автоматично виконувати завдання у браузері, такі як додавання продуктів до кошика на основі списку інгредієнтів, наданого користувачем.

Примітно, що оголошення Google з'явилося лише через день після того, як OpenAI представила серію нових програм для ChatGPT на своєму заході Dev Day, а Anthropic також представила функцію «використання комп'ютера» для своєї моделі Claude минулого року.

За даними Google, Gemini 2.5 Computer Use перевершує конкуруючі моделі в багатьох веб- та мобільних тестах.

Однак, на відміну від ChatGPT Agent чи Claude, модель Google працює лише в середовищі браузера та не оптимізована для повного контролю над операційною системою комп'ютера.

Наразі він підтримує 13 типів дій, включаючи відкриття браузера, введення тексту, перетягування та переміщення елементів інтерфейсу. Модель доступна розробникам через Google AI Studio та Vertex AI, а користувачі можуть переглянути живу демонстрацію на Browserbase, де ШІ виконує такі завдання, як «грати в 2048» або «знайти суперечливі теми на Hacker News».