هوش مصنوعی گوگل جمینی ۲.۵ مانند یک شخص واقعی با مرورگر کار می‌کند

گوگل به تازگی از یک مدل هوش مصنوعی جدید به نام Gemini 2.5 Computer Use رونمایی کرده است که به هوش مصنوعی اجازه می‌دهد مانند یک کاربر واقعی مستقیماً با مرورگر وب تعامل داشته باشد.

قابلیت‌های این هوش مصنوعی شامل کلیک کردن، اسکرول کردن، تایپ کردن، کشیدن و رها کردن و پیمایش در وب‌سایت‌ها می‌شود.

این یک گام مهم رو به جلو در توانمندسازی هوش مصنوعی برای انجام وظایف در رابط‌ها بدون API یا اتصالات مستقیم است.

طبق گفته گوگل، Gemini 2.5 Computer Use به قابلیت‌های درک و استدلال بصری مجهز است تا محتوای روی صفحه را درک کند و درخواست‌های کاربر مانند پر کردن فرم‌ها، ارسال داده‌ها یا پیمایش رابط‌های کاربری (تست رابط کاربری) را انجام دهد.

برخی از نسخه‌های اولیه این مدل در پروژه‌های داخلی مانند AI Mode و Project Mariner آزمایش شده‌اند، که در آن‌ها هوش مصنوعی می‌تواند به طور خودکار وظایفی را در مرورگر انجام دهد، مانند اضافه کردن محصولات به سبد خرید بر اساس لیست مواد تشکیل دهنده ارائه شده توسط کاربر.

نکته قابل توجه این است که اعلامیه گوگل تنها یک روز پس از آن منتشر می‌شود که OpenAI در رویداد Dev Day خود از مجموعه‌ای از برنامه‌های جدید برای ChatGPT رونمایی کرد، در حالی که Anthropic نیز سال گذشته ویژگی «استفاده از کامپیوتر» را برای مدل Claude خود معرفی کرد.

طبق گفته گوگل، Gemini 2.5 Computer Use در بسیاری از تست‌های بنچمارک وب و موبایل از مدل‌های رقیب پیشی گرفته است.

با این حال، برخلاف ChatGPT Agent یا Claude، مدل گوگل فقط در محیط مرورگر کار می‌کند و برای کنترل کامل سیستم‌عامل رایانه بهینه نشده است.

در حال حاضر از ۱۳ نوع عمل پشتیبانی می‌کند، از جمله باز کردن مرورگر، وارد کردن متن، کشیدن و رها کردن و جابجایی عناصر رابط. این مدل از طریق Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان است و کاربران می‌توانند یک نسخه آزمایشی زنده را در Browserbase مشاهده کنند، جایی که هوش مصنوعی وظایفی مانند «بازی ۲۰۴۸» یا «یافتن موضوعات بحث‌برانگیز در Hacker News» را انجام می‌دهد.