L'IA Google Gemini 2.5 fonctionne avec le navigateur comme une vraie personne

Google vient d'annoncer un nouveau modèle d'IA appelé Gemini 2.5 Computer Use, qui permet à l'intelligence artificielle d'interagir directement avec le navigateur Web comme un véritable utilisateur.

Les capacités de cette IA incluent le clic, le défilement, la saisie, le glisser-déposer et la navigation sur des sites Web.

Il s’agit d’une étape importante permettant à l’IA de gérer des tâches sur des interfaces sans API ni connexions directes.

Selon Google, Gemini 2.5 Computer Use est équipé de capacités de compréhension visuelle et de raisonnement pour comprendre le contenu à l'écran et exécuter les demandes des utilisateurs, telles que remplir des formulaires, soumettre des données ou naviguer dans les interfaces utilisateur (tests d'interface utilisateur).

Certaines versions antérieures de ce modèle ont été testées dans des projets internes comme AI Mode et Project Mariner, où l'IA peut effectuer automatiquement des tâches dans le navigateur, comme l'ajout de produits à un panier en fonction d'une liste d'ingrédients fournie par l'utilisateur.

Il convient de noter que l'annonce de Google intervient juste un jour après qu'OpenAI a dévoilé une série de nouvelles applications pour ChatGPT lors de son événement Dev Day, tandis qu'Anthropic a également introduit une fonctionnalité « d'utilisation de l'ordinateur » pour son modèle Claude l'année dernière.

Selon Google, Gemini 2.5 Computer Use surpasse les modèles concurrents sur de nombreux tests de référence Web et mobiles.

Cependant, contrairement à ChatGPT Agent ou Claude, le modèle de Google ne fonctionne que dans un environnement de navigateur et n'est pas optimisé pour un contrôle total du système d'exploitation de l'ordinateur.

Il prend actuellement en charge 13 types d'actions, dont l'ouverture d'un navigateur, la saisie de texte, le glisser-déposer et le déplacement d'éléments d'interface. Le modèle est accessible aux développeurs via Google AI Studio et Vertex AI, et les utilisateurs peuvent visionner une démonstration en direct sur Browserbase, où l'IA effectue des tâches telles que « jouer à 2048 » ou « trouver des sujets controversés sur Hacker News ».