
Google har precis presenterat en ny AI-modell som heter Gemini 2.5 Computer Use, som gör det möjligt för artificiell intelligens att interagera direkt med webbläsaren som en riktig användare.

Denna AI:s funktioner inkluderar att klicka, scrolla, skriva, dra och släppa samt navigera på webbplatser.

Detta är ett viktigt steg framåt för att göra det möjligt för AI att hantera uppgifter på gränssnitt utan API:er eller direkta kopplingar.

Enligt Google är Gemini 2.5 Computer Use utrustad med visuell förståelse och resonemangsfunktioner för att förstå innehåll på skärmen och utföra användarförfrågningar, såsom att fylla i formulär, skicka in data eller navigera i användargränssnitt (UI-testning).

Några tidigare versioner av den här modellen har testats i interna projekt som AI Mode och Project Mariner, där AI automatiskt kan slutföra uppgifter i webbläsaren, som att lägga till produkter i en kundvagn baserat på en användardefinierad ingredienslista.

Det är värt att notera att Googles tillkännagivande kommer bara en dag efter att OpenAI presenterade en serie nya applikationer för ChatGPT vid sitt Dev Day-evenemang, medan Anthropic också introducerade en funktion för "datoranvändning" för sin Claude-modell förra året.

Enligt Google överträffar Gemini 2.5 Computer Use konkurrerande modeller i många webb- och mobiltest.

Till skillnad från ChatGPT Agent eller Claude fungerar dock Googles modell bara i en webbläsarmiljö och är inte optimerad för full kontroll över datorns operativsystem.

Den stöder för närvarande 13 typer av åtgärder, inklusive att öppna en webbläsare, skriva in text, dra och släppa och flytta gränssnittselement. Modellen är tillgänglig för utvecklare via Google AI Studio och Vertex AI, och användare kan se en livedemo på Browserbase, där AI:n utför uppgifter som att "spela 2048" eller "hitta kontroversiella ämnen på Hacker News".
Källa: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
Kommentar (0)