AI Google Gemini 2.5 bekerja dengan browser seperti orang sungguhan

Google baru saja mengumumkan model AI baru yang disebut Gemini 2.5 Computer Use, yang memungkinkan kecerdasan buatan berinteraksi langsung dengan peramban web seperti pengguna sungguhan.

Kemampuan AI ini meliputi mengklik, menggulir, mengetik, menyeret dan melepas, serta menavigasi situs web.

Ini adalah langkah maju yang penting dalam memungkinkan AI menangani tugas pada antarmuka tanpa API atau koneksi langsung.

Menurut Google, Gemini 2.5 Computer Use dilengkapi dengan kemampuan pemahaman dan penalaran visual untuk memahami konten di layar dan melaksanakan permintaan pengguna, seperti mengisi formulir, mengirimkan data, atau menavigasi antarmuka pengguna (pengujian UI).

Beberapa versi awal model ini telah diuji dalam proyek internal seperti AI Mode dan Project Mariner, di mana AI dapat secara otomatis menyelesaikan tugas di browser, seperti menambahkan produk ke keranjang belanja berdasarkan daftar bahan yang disediakan pengguna.

Khususnya, pengumuman Google muncul hanya sehari setelah OpenAI meluncurkan serangkaian aplikasi baru untuk ChatGPT di acara Dev Day-nya, sementara Anthropic juga memperkenalkan fitur "penggunaan komputer" untuk model Claude-nya tahun lalu.

Menurut Google, Penggunaan Komputer Gemini 2.5 mengungguli model pesaing pada banyak uji tolok ukur web dan seluler.

Namun, tidak seperti ChatGPT Agent atau Claude, model Google hanya berfungsi di lingkungan browser dan tidak dioptimalkan untuk kontrol penuh atas sistem operasi komputer.

Saat ini, AI ini mendukung 13 jenis tindakan, termasuk membuka peramban, memasukkan teks, menyeret dan melepas, serta memindahkan elemen antarmuka. Model ini tersedia untuk pengembang melalui Google AI Studio dan Vertex AI, dan pengguna dapat melihat demo langsung di Browserbase, tempat AI tersebut melakukan tugas-tugas seperti "mainkan 2048" atau "temukan topik kontroversial di Hacker News".