
גוגל הכריזה זה עתה על מודל בינה מלאכותית חדש בשם Gemini 2.5 Computer Use, המאפשר לבינה מלאכותית לתקשר ישירות עם דפדפן האינטרנט כמו משתמש אמיתי.

יכולותיה של בינה מלאכותית זו כוללות לחיצה, גלילה, הקלדה, גרירה ושחרור וניווט באתרי אינטרנט.

זהו צעד חשוב קדימה שיאפשר לבינה מלאכותית להתמודד עם משימות על ממשקים ללא ממשקי API או חיבורים ישירים.

לפי גוגל, ג'מיני 2.5 Computer Use מצויד ביכולות הבנה חזותית והיגיון להבנת תוכן על המסך ולביצוע בקשות משתמש, כגון מילוי טפסים, הגשת נתונים או ניווט בממשקי משתמש (בדיקות ממשק משתמש).

גרסאות קודמות של מודל זה נבדקו בפרויקטים פנימיים כמו AI Mode ו-Project Mariner, שבהם בינה מלאכותית יכולה להשלים באופן אוטומטי משימות בדפדפן, כמו הוספת מוצרים לעגלת קניות בהתבסס על רשימת רכיבים שסיפק המשתמש.

ראוי לציין כי ההודעה של גוגל מגיעה יום אחד בלבד לאחר ש-OpenAI חשפה סדרה של אפליקציות חדשות עבור ChatGPT באירוע Dev Day שלה, בעוד ש-Anthropic הציגה גם היא תכונת "שימוש במחשב" עבור דגם Claude שלה בשנה שעברה.

לפי גוגל, דגמי Gemini 2.5 Computer Use עולה בביצועיו על דגמים מתחרים במבחני ביצועים רבים באינטרנט ובמובייל.

עם זאת, בניגוד ל-ChatGPT Agent או Claude, המודל של גוגל עובד רק בסביבת דפדפן ואינו מותאם לשליטה מלאה במערכת ההפעלה של המחשב.

נכון לעכשיו, המודל תומך ב-13 סוגי פעולות, כולל פתיחת דפדפן, הזנת טקסט, גרירה ושחרור והזזת רכיבי ממשק. המודל זמין למפתחים דרך Google AI Studio ו-Vertex AI, ומשתמשים יכולים לצפות בהדגמה חיה ב-Browserbase, שם הבינה המלאכותית מבצעת משימות כמו "לשחק ב-2048" או "למצוא נושאים שנויים במחלוקת ב-Hacker News".
מקור: https://khoahocdoisong.vn/ai-google-gemini-25-thao-tac-voi-trinh-duyet-nhu-nguoi-that-post2149059532.html
תגובה (0)