Vietnam.vn - Nền tảng quảng bá Việt Nam

Sztuczna inteligencja Google Gemini 2.5 współpracuje z przeglądarką jak prawdziwa osoba

Google ogłosiło model sztucznej inteligencji Gemini 2.5 Computer Use, który pozwala sztucznej inteligencji klikać, pisać, przewijać oraz przeciągać i upuszczać zupełnie jak ludzie.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống10/10/2025

Firma Google właśnie ogłosiła nowy model sztucznej inteligencji o nazwie Gemini 2.5 Computer Use, który umożliwia sztucznej inteligencji bezpośrednią interakcję z przeglądarką internetową tak, jak robi to prawdziwy użytkownik.

Możliwości tej sztucznej inteligencji obejmują klikanie, przewijanie, pisanie, przeciąganie i upuszczanie oraz nawigację po stronach internetowych.

To ważny krok naprzód w umożliwieniu sztucznej inteligencji wykonywania zadań za pośrednictwem interfejsów bez API ani bezpośrednich połączeń.

Według Google Gemini 2.5 Computer Use jest wyposażony w funkcje wizualnego rozumienia i rozumowania pozwalające na zrozumienie treści wyświetlanych na ekranie oraz realizację żądań użytkownika, takich jak wypełnianie formularzy, przesyłanie danych czy nawigowanie po interfejsach użytkownika (testowanie interfejsu użytkownika).

Wcześniejsze wersje tego modelu zostały przetestowane w wewnętrznych projektach, takich jak AI Mode i Project Mariner, w których sztuczna inteligencja może automatycznie wykonywać zadania w przeglądarce, np. dodawać produkty do koszyka na podstawie listy składników dostarczonej przez użytkownika.

Warto zauważyć, że ogłoszenie Google'a nastąpiło zaledwie dzień po tym, jak OpenAI zaprezentowało serię nowych aplikacji dla ChatGPT podczas swojego wydarzenia Dev Day, a Anthropic również w zeszłym roku przedstawił funkcję „użytkowania komputera” dla swojego modelu Claude.

Według Google Gemini 2.5 Computer Use przewyższa konkurencyjne modele w wielu testach wydajnościowych w sieci i na urządzeniach mobilnych.

Jednak w przeciwieństwie do ChatGPT Agent i Claude, model Google działa wyłącznie w środowisku przeglądarki i nie jest zoptymalizowany pod kątem pełnej kontroli nad systemem operacyjnym komputera.

Obecnie obsługuje 13 typów akcji, w tym otwieranie przeglądarki, wprowadzanie tekstu, przeciąganie i upuszczanie oraz przesuwanie elementów interfejsu. Model jest dostępny dla programistów za pośrednictwem Google AI Studio i Vertex AI, a użytkownicy mogą obejrzeć demo na żywo w Browserbase, gdzie sztuczna inteligencja wykonuje zadania takie jak „zagraj w 2048” lub „znajdź kontrowersyjne tematy w Hacker News”.

Gemini z łatwością przechodzi test przeglądarki „Nie jestem robotem”.

Źródło: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html


Komentarz (0)

No data
No data

W tej samej kategorii

Reprezentacja Wietnamu awansowała do rankingu FIFA po zwycięstwie nad Nepalem, Indonezja jest w niebezpieczeństwie
71 lat po wyzwoleniu Hanoi zachowuje piękno swojego dziedzictwa w nowoczesnym stylu
71. rocznica Dnia Wyzwolenia Stolicy – ​​rozbudzanie ducha, by Hanoi śmiało wkroczyło w nową erę
Zalane obszary w Lang Son widziane z helikoptera

Od tego samego autora

Dziedzictwo

Postać

Biznes

No videos available

Aktualne wydarzenia

System polityczny

Lokalny

Produkt