Vietnam.vn - Nền tảng quảng bá Việt Nam

KI Google Gemini 2.5 arbeitet mit dem Browser wie eine echte Person

Google hat das KI-Modell Gemini 2.5 Computer Use angekündigt, das es KI ermöglicht, genau wie Menschen zu klicken, zu tippen, zu scrollen und per Drag-and-Drop zu arbeiten.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống10/10/2025

Google hat gerade ein neues KI-Modell namens Gemini 2.5 Computer Use angekündigt, das es künstlicher Intelligenz ermöglicht, wie ein echter Benutzer direkt mit dem Webbrowser zu interagieren.

Zu den Fähigkeiten dieser KI gehören Klicken, Scrollen, Tippen, Ziehen und Ablegen sowie das Navigieren auf Websites.

Dies ist ein wichtiger Schritt nach vorn, um KI in die Lage zu versetzen, Aufgaben auf Schnittstellen ohne APIs oder direkte Verbindungen zu erledigen.

Laut Google ist Gemini 2.5 Computer Use mit visuellen Verständnis- und Argumentationsfähigkeiten ausgestattet, um Bildschirminhalte zu verstehen und Benutzeranforderungen auszuführen, wie etwa das Ausfüllen von Formularen, das Senden von Daten oder das Navigieren durch Benutzeroberflächen (UI-Tests).

Einige frühere Versionen dieses Modells wurden in internen Projekten wie AI Mode und Project Mariner getestet, bei denen KI Aufgaben im Browser automatisch erledigen kann, wie etwa das Hinzufügen von Produkten zu einem Einkaufswagen basierend auf einer vom Benutzer bereitgestellten Zutatenliste.

Bemerkenswerterweise erfolgt die Ankündigung von Google nur einen Tag, nachdem OpenAI bei seinem Dev Day-Event eine Reihe neuer Anwendungen für ChatGPT vorgestellt hatte, während Anthropic im vergangenen Jahr auch eine Funktion zur „Computernutzung“ für sein Claude-Modell eingeführt hatte.

Laut Google übertrifft Gemini 2.5 Computer Use die Konkurrenzmodelle bei vielen Web- und Mobil-Benchmark-Tests.

Im Gegensatz zu ChatGPT Agent oder Claude funktioniert das Modell von Google jedoch nur in einer Browserumgebung und ist nicht für die vollständige Kontrolle des Betriebssystems des Computers optimiert.

Es unterstützt derzeit 13 Arten von Aktionen, darunter das Öffnen eines Browsers, die Eingabe von Text, Ziehen und Ablegen sowie das Verschieben von Schnittstellenelementen. Das Modell steht Entwicklern über Google AI Studio und Vertex AI zur Verfügung. Benutzer können sich eine Live-Demo auf Browserbase ansehen, in der die KI Aufgaben wie „2048 spielen“ oder „kontroverse Themen auf Hacker News finden“ ausführt.

Gemini besteht den „Ich bin kein Roboter“-Test des Browsers problemlos.

Quelle: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html


Kommentar (0)

No data
No data

Gleiche Kategorie

Vietnamesische Mannschaft steigt nach Sieg über Nepal in die FIFA-Rangliste auf, Indonesien in Gefahr
71 Jahre nach der Befreiung bewahrt Hanoi seine traditionelle Schönheit im modernen Fluss
71. Jahrestag des Tages der Befreiung der Hauptstadt – ein Anstoß für Hanoi, entschlossen in die neue Ära zu gehen
Überflutete Gebiete in Lang Son, vom Hubschrauber aus gesehen

Gleicher Autor

Erbe

Figur

Geschäft

No videos available

Aktuelle Veranstaltungen

Politisches System

Lokal

Produkt