Vietnam.vn - Nền tảng quảng bá Việt Nam

L'IA Google Gemini 2.5 fonctionne avec le navigateur comme une vraie personne

Google a annoncé le modèle d'IA Gemini 2.5 Computer Use, qui permet à l'IA de cliquer, taper, faire défiler et glisser-déposer comme les humains.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống10/10/2025

Google vient d'annoncer un nouveau modèle d'IA appelé Gemini 2.5 Computer Use, qui permet à l'intelligence artificielle d'interagir directement avec le navigateur Web comme un véritable utilisateur.

Les capacités de cette IA incluent le clic, le défilement, la saisie, le glisser-déposer et la navigation sur des sites Web.

Il s’agit d’une étape importante permettant à l’IA de gérer des tâches sur des interfaces sans API ni connexions directes.

Selon Google, Gemini 2.5 Computer Use est équipé de capacités de compréhension visuelle et de raisonnement pour comprendre le contenu à l'écran et exécuter les demandes des utilisateurs, telles que remplir des formulaires, soumettre des données ou naviguer dans les interfaces utilisateur (tests d'interface utilisateur).

Certaines versions antérieures de ce modèle ont été testées dans des projets internes comme AI Mode et Project Mariner, où l'IA peut effectuer automatiquement des tâches dans le navigateur, comme l'ajout de produits à un panier en fonction d'une liste d'ingrédients fournie par l'utilisateur.

Il convient de noter que l'annonce de Google intervient juste un jour après qu'OpenAI a dévoilé une série de nouvelles applications pour ChatGPT lors de son événement Dev Day, tandis qu'Anthropic a également introduit une fonctionnalité « d'utilisation de l'ordinateur » pour son modèle Claude l'année dernière.

Selon Google, Gemini 2.5 Computer Use surpasse les modèles concurrents sur de nombreux tests de référence Web et mobiles.

Cependant, contrairement à ChatGPT Agent ou Claude, le modèle de Google ne fonctionne que dans un environnement de navigateur et n'est pas optimisé pour un contrôle total du système d'exploitation de l'ordinateur.

Il prend actuellement en charge 13 types d'actions, dont l'ouverture d'un navigateur, la saisie de texte, le glisser-déposer et le déplacement d'éléments d'interface. Le modèle est accessible aux développeurs via Google AI Studio et Vertex AI, et les utilisateurs peuvent visionner une démonstration en direct sur Browserbase, où l'IA effectue des tâches telles que « jouer à 2048 » ou « trouver des sujets controversés sur Hacker News ».

Gemini passe facilement le test « Je ne suis pas un robot » du navigateur.

Source : https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html


Comment (0)

No data
No data

Même catégorie

L'équipe du Vietnam promue au rang FIFA après sa victoire contre le Népal, l'Indonésie en danger
71 ans après la libération, Hanoi conserve sa beauté patrimoniale dans le flux moderne
71e anniversaire de la Journée de la libération de la capitale : susciter l'enthousiasme pour que Hanoï entre résolument dans la nouvelle ère
Les zones inondées de Lang Son vues depuis un hélicoptère

Même auteur

Patrimoine

Chiffre

Entreprise

No videos available

Événements actuels

Système politique

Locale

Produit