
أعلنت شركة جوجل للتو عن نموذج جديد للذكاء الاصطناعي يسمى Gemini 2.5 Computer Use، والذي يسمح للذكاء الاصطناعي بالتفاعل مباشرة مع متصفح الويب مثل المستخدم الحقيقي.

تتضمن قدرات الذكاء الاصطناعي النقر والتمرير والكتابة والسحب والإفلات والتنقل عبر مواقع الويب.

وهذه خطوة مهمة إلى الأمام في تمكين الذكاء الاصطناعي من التعامل مع المهام على الواجهات دون الحاجة إلى واجهات برمجة التطبيقات أو الاتصالات المباشرة.

وفقًا لـ Google، تم تجهيز Gemini 2.5 Computer Use بقدرات فهم واستدلال بصرية لفهم المحتوى المعروض على الشاشة وتنفيذ طلبات المستخدم، مثل ملء النماذج أو إرسال البيانات أو التنقل عبر واجهات المستخدم (اختبار واجهة المستخدم).

تم اختبار بعض الإصدارات السابقة من هذا النموذج في مشاريع داخلية مثل AI Mode وProject Mariner، حيث يمكن للذكاء الاصطناعي إكمال المهام تلقائيًا في المتصفح، مثل إضافة المنتجات إلى عربة التسوق استنادًا إلى قائمة المكونات التي يوفرها المستخدم.

ومن الجدير بالذكر أن إعلان جوجل يأتي بعد يوم واحد فقط من كشف OpenAI عن سلسلة من التطبيقات الجديدة لـ ChatGPT في حدث Dev Day الخاص بها، بينما قدمت Anthropic أيضًا ميزة "استخدام الكمبيوتر" لنموذج Claude الخاص بها في العام الماضي.

وفقًا لـ Google، يتفوق Gemini 2.5 Computer Use على النماذج المنافسة في العديد من اختبارات المقارنة على الويب والهواتف المحمولة.

ومع ذلك، على عكس ChatGPT Agent أو Claude، يعمل نموذج Google فقط في بيئة المتصفح وليس مُحسَّنًا للتحكم الكامل في نظام تشغيل الكمبيوتر.

يدعم حاليًا 13 نوعًا من الإجراءات، بما في ذلك فتح المتصفح، وإدخال النصوص، والسحب والإفلات، ونقل عناصر الواجهة. النموذج متاح للمطورين عبر Google AI Studio وVertex AI، ويمكن للمستخدمين مشاهدة عرض توضيحي مباشر على Browserbase، حيث يُجري الذكاء الاصطناعي مهامًا مثل "لعبة 2048" أو "البحث عن مواضيع مثيرة للجدل على Hacker News".
المصدر: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
تعليق (0)