Umělá inteligence Google Gemini 2.5 pracuje s prohlížečem jako skutečný člověk

Společnost Google právě oznámila nový model umělé inteligence s názvem Gemini 2.5 Computer Use, který umožňuje umělé inteligenci přímo interagovat s webovým prohlížečem jako skutečný uživatel.

Mezi funkce této umělé inteligence patří klikání, rolování, psaní, přetahování a procházení webových stránek.

Toto je důležitý krok vpřed k tomu, aby umělá inteligence mohla zpracovávat úkoly na rozhraních bez API nebo přímého připojení.

Podle Googlu je Gemini 2.5 Computer Use vybaven schopnostmi vizuálního porozumění a uvažování, které umožňují porozumět obsahu na obrazovce a provádět uživatelské požadavky, jako je vyplňování formulářů, odesílání dat nebo navigace v uživatelských rozhraních (testování uživatelského rozhraní).

Některé dřívější verze tohoto modelu byly testovány v interních projektech, jako je AI Mode a Project Mariner, kde umělá inteligence dokáže automaticky dokončovat úkoly v prohlížeči, jako je přidávání produktů do nákupního košíku na základě uživatelem zadaného seznamu ingrediencí.

Je pozoruhodné, že oznámení Googlu přichází jen den poté, co OpenAI na své akci Dev Day představila řadu nových aplikací pro ChatGPT, zatímco Anthropic loni také představila funkci „používání počítače“ pro svůj model Claude.

Podle Googlu Gemini 2.5 Computer Use překonává konkurenční modely v mnoha webových a mobilních benchmarkových testech.

Na rozdíl od ChatGPT Agent nebo Claude však model od Googlu funguje pouze v prostředí prohlížeče a není optimalizován pro plnou kontrolu nad operačním systémem počítače.

V současné době podporuje 13 typů akcí, včetně otevírání prohlížeče, zadávání textu, přetahování a přesouvání prvků rozhraní. Model je vývojářům k dispozici prostřednictvím Google AI Studio a Vertex AI a uživatelé si mohou prohlédnout živou demoverzi na Browserbase, kde umělá inteligence provádí úkoly jako „hrát 2048“ nebo „najít kontroverzní témata na Hacker News“.