Vietnam.vn - Nền tảng quảng bá Việt Nam

La IA de Google Gemini 2.5 funciona con el navegador como una persona real

Google anunció el modelo de IA Gemini 2.5 Computer Use, que permite a la IA hacer clic, escribir, desplazarse y arrastrar y soltar como los humanos.

Báo Khoa học và Đời sốngBáo Khoa học và Đời sống10/10/2025

Google acaba de anunciar un nuevo modelo de IA llamado Gemini 2.5 Computer Use, que permite a la inteligencia artificial interactuar directamente con el navegador web como un usuario real.

Las capacidades de esta IA incluyen hacer clic, desplazarse, escribir, arrastrar y soltar y navegar por sitios web.

Este es un importante paso adelante para permitir que la IA gestione tareas en interfaces sin API ni conexiones directas.

Según Google, Gemini 2.5 Computer Use está equipado con capacidades de razonamiento y comprensión visual para entender el contenido en pantalla y llevar a cabo solicitudes del usuario, como completar formularios, enviar datos o navegar por interfaces de usuario (pruebas de UI).

Algunas versiones anteriores de este modelo se han probado en proyectos internos como AI Mode y Project Mariner, donde la IA puede completar tareas automáticamente en el navegador, como agregar productos a un carrito de compras según una lista de ingredientes proporcionada por el usuario.

Cabe destacar que el anuncio de Google se produce apenas un día después de que OpenAI presentara una serie de nuevas aplicaciones para ChatGPT en su evento Dev Day, mientras que Anthropic también presentó una función de "uso de computadora" para su modelo Claude el año pasado.

Según Google, Gemini 2.5 Computer Use supera a los modelos de la competencia en muchas pruebas comparativas web y móviles.

Sin embargo, a diferencia de ChatGPT Agent o Claude, el modelo de Google solo funciona en un entorno de navegador y no está optimizado para el control total del sistema operativo de la computadora.

Actualmente admite 13 tipos de acciones, como abrir un navegador, introducir texto, arrastrar y soltar, y mover elementos de la interfaz. El modelo está disponible para desarrolladores a través de Google AI Studio y Vertex AI, y los usuarios pueden ver una demostración en vivo en Browserbase, donde la IA realiza tareas como "jugar al 2048" o "encontrar temas controvertidos en Hacker News".

Gemini pasa fácilmente la prueba "No soy un robot" del navegador.

Fuente: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html


Kommentar (0)

No data
No data

Misma categoría

La selección de Vietnam asciende al ranking FIFA tras la victoria sobre Nepal, Indonesia en peligro
71 años después de la liberación, Hanoi conserva su belleza patrimonial en el flujo moderno
71º aniversario del Día de la Liberación de la Capital: animando a Hanoi a avanzar con firmeza hacia una nueva era
Zonas inundadas en Lang Son vistas desde un helicóptero

Mismo autor

Herencia

Cifra

Negocio

No videos available

Actualidad

Sistema político

Local

Producto