
A Google bejelentette új mesterséges intelligencia modelljét, a Gemini 2.5 Computer Use-t, amely lehetővé teszi a mesterséges intelligencia számára, hogy közvetlenül, akárcsak egy valódi felhasználó, kommunikáljon a böngészővel.

Ennek a mesterséges intelligenciának a képességei közé tartozik a kattintás, görgetés, gépelés, húzás és elengedés, valamint a weboldalak navigálása.

Ez egy fontos lépés afelé, hogy a mesterséges intelligencia API-k vagy közvetlen kapcsolatok nélküli interfészeken is képes legyen feladatokat kezelni.

A Google szerint a Gemini 2.5 Számítógép-használat vizuális megértési és érvelési képességekkel rendelkezik a képernyőn megjelenő tartalom megértéséhez és a felhasználói kérések végrehajtásához, például űrlapok kitöltéséhez, adatok beküldéséhez vagy a felhasználói felületeken való navigáláshoz (UI tesztelés).

A modell néhány korábbi verzióját belső projektekben tesztelték, mint például az AI Mode és a Project Mariner, ahol a mesterséges intelligencia automatikusan elvégezhet feladatokat a böngészőben, például termékeket adhat a kosárhoz a felhasználó által megadott összetevők listája alapján.

Figyelemre méltó, hogy a Google bejelentése mindössze egy nappal azután érkezett, hogy az OpenAI a Dev Day rendezvényén számos új alkalmazást mutatott be a ChatGPT-hez, míg az Anthropic tavaly egy „számítógép-használat” funkciót is bemutatott Claude modelljéhez.

A Google szerint a Gemini 2.5 Computer Use számos webes és mobil benchmark teszten felülmúlja a versenytársak modelljeit.

A ChatGPT Agenttel vagy a Claude-dal ellentétben azonban a Google modellje csak böngészőkörnyezetben működik, és nincs optimalizálva a számítógép operációs rendszerének teljes körű irányítására.

Jelenleg 13 típusú műveletet támogat, beleértve a böngésző megnyitását, szövegbevitelt, húzást és elengedést, valamint a felületelemek mozgatását. A modell a fejlesztők számára a Google AI Studio és a Vertex AI segítségével érhető el, a felhasználók pedig élő demót tekinthetnek meg a Browserbase-en, ahol a mesterséges intelligencia olyan feladatokat végez, mint a „2048 lejátszása” vagy a „vitatott témák keresése a Hacker News-on”.
Forrás: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
Hozzászólás (0)