Sztuczna inteligencja Google Gemini 2.5 współpracuje z przeglądarką jak prawdziwa osoba

Firma Google właśnie ogłosiła nowy model sztucznej inteligencji o nazwie Gemini 2.5 Computer Use, który umożliwia sztucznej inteligencji bezpośrednią interakcję z przeglądarką internetową tak, jak robi to prawdziwy użytkownik.

Możliwości tej sztucznej inteligencji obejmują klikanie, przewijanie, pisanie, przeciąganie i upuszczanie oraz nawigację po stronach internetowych.

To ważny krok naprzód w umożliwieniu sztucznej inteligencji wykonywania zadań za pośrednictwem interfejsów bez API ani bezpośrednich połączeń.

Według Google Gemini 2.5 Computer Use jest wyposażony w funkcje wizualnego rozumienia i rozumowania pozwalające na zrozumienie treści wyświetlanych na ekranie oraz realizację żądań użytkownika, takich jak wypełnianie formularzy, przesyłanie danych czy nawigowanie po interfejsach użytkownika (testowanie interfejsu użytkownika).

Wcześniejsze wersje tego modelu zostały przetestowane w wewnętrznych projektach, takich jak AI Mode i Project Mariner, w których sztuczna inteligencja może automatycznie wykonywać zadania w przeglądarce, np. dodawać produkty do koszyka na podstawie listy składników dostarczonej przez użytkownika.

Warto zauważyć, że ogłoszenie Google'a nastąpiło zaledwie dzień po tym, jak OpenAI zaprezentowało serię nowych aplikacji dla ChatGPT podczas swojego wydarzenia Dev Day, a Anthropic również w zeszłym roku przedstawił funkcję „użytkowania komputera” dla swojego modelu Claude.

Według Google Gemini 2.5 Computer Use przewyższa konkurencyjne modele w wielu testach wydajnościowych w sieci i na urządzeniach mobilnych.

Jednak w przeciwieństwie do ChatGPT Agent i Claude, model Google działa wyłącznie w środowisku przeglądarki i nie jest zoptymalizowany pod kątem pełnej kontroli nad systemem operacyjnym komputera.

Obecnie obsługuje 13 typów akcji, w tym otwieranie przeglądarki, wprowadzanie tekstu, przeciąganie i upuszczanie oraz przesuwanie elementów interfejsu. Model jest dostępny dla programistów za pośrednictwem Google AI Studio i Vertex AI, a użytkownicy mogą obejrzeć demo na żywo w Browserbase, gdzie sztuczna inteligencja wykonuje zadania takie jak „zagraj w 2048” lub „znajdź kontrowersyjne tematy w Hacker News”.