
گوگل به تازگی از یک مدل هوش مصنوعی جدید به نام Gemini 2.5 Computer Use رونمایی کرده است که به هوش مصنوعی اجازه میدهد مانند یک کاربر واقعی مستقیماً با مرورگر وب تعامل داشته باشد.

قابلیتهای این هوش مصنوعی شامل کلیک کردن، اسکرول کردن، تایپ کردن، کشیدن و رها کردن و پیمایش در وبسایتها میشود.

این یک گام مهم رو به جلو در توانمندسازی هوش مصنوعی برای انجام وظایف در رابطها بدون API یا اتصالات مستقیم است.

طبق گفته گوگل، Gemini 2.5 Computer Use به قابلیتهای درک و استدلال بصری مجهز است تا محتوای روی صفحه را درک کند و درخواستهای کاربر مانند پر کردن فرمها، ارسال دادهها یا پیمایش رابطهای کاربری (تست رابط کاربری) را انجام دهد.

برخی از نسخههای اولیه این مدل در پروژههای داخلی مانند AI Mode و Project Mariner آزمایش شدهاند، که در آنها هوش مصنوعی میتواند به طور خودکار وظایفی را در مرورگر انجام دهد، مانند اضافه کردن محصولات به سبد خرید بر اساس لیست مواد تشکیل دهنده ارائه شده توسط کاربر.

نکته قابل توجه این است که اعلامیه گوگل تنها یک روز پس از آن منتشر میشود که OpenAI در رویداد Dev Day خود از مجموعهای از برنامههای جدید برای ChatGPT رونمایی کرد، در حالی که Anthropic نیز سال گذشته ویژگی «استفاده از کامپیوتر» را برای مدل Claude خود معرفی کرد.

طبق گفته گوگل، Gemini 2.5 Computer Use در بسیاری از تستهای بنچمارک وب و موبایل از مدلهای رقیب پیشی گرفته است.

با این حال، برخلاف ChatGPT Agent یا Claude، مدل گوگل فقط در محیط مرورگر کار میکند و برای کنترل کامل سیستمعامل رایانه بهینه نشده است.

در حال حاضر از ۱۳ نوع عمل پشتیبانی میکند، از جمله باز کردن مرورگر، وارد کردن متن، کشیدن و رها کردن و جابجایی عناصر رابط. این مدل از طریق Google AI Studio و Vertex AI در دسترس توسعهدهندگان است و کاربران میتوانند یک نسخه آزمایشی زنده را در Browserbase مشاهده کنند، جایی که هوش مصنوعی وظایفی مانند «بازی ۲۰۴۸» یا «یافتن موضوعات بحثبرانگیز در Hacker News» را انجام میدهد.
منبع: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
نظر (0)