תמונה 19.jpg
פליקס יאנוויי וואנג - דוקטורנט בהנדסת חשמל ומדעי המחשב (EECS) ב-MIT. מקור: MIT News

דמיינו שרובוט עוזר לכם לשטוף כלים. אתם מבקשים ממנו לקחת קערת סבון מהכיור, אבל האחיזה שלו לא תופסת בדיוק במקום שצריך.

בעזרת מסגרת חדשה שפותחה על ידי חוקרים ב-MIT וב-NVIDIA, ניתן לשלוט בהתנהגותו של רובוט באמצעות מחוות פשוטות. ניתן להצביע על קערה או לצייר נתיב על המסך, או פשוט לדחוף את זרועו של הרובוט בכיוון הנכון.

בניגוד לגישות אחרות לשינוי התנהגות רובוט, טכניקה זו אינה דורשת מהמשתמש לאסוף נתונים חדשים ולאמן מחדש את מודל למידת המכונה ששולט ברובוט. במקום זאת, היא מאפשרת לרובוט להשתמש במשוב אנושי חזותי בזמן אמת כדי לבחור את רצף הפעולות המתאים ביותר לכוונת המשתמש.

כאשר חוקרים בדקו מסגרת זו, שיעור ההצלחה שלה היה גבוה ב-21% בהשוואה לגישה חלופית שלא השתמשה בהתערבות אנושית.

בעתיד, מסגרת זו תוכל להקל על משתמש להורות לרובוט שאומן במפעל לבצע משימות ביתיות שונות, גם אם הרובוט מעולם לא ראה את הסביבה או את החפצים באותו בית קודם לכן.

"אנחנו לא יכולים לצפות ממשתמשים רגילים לאסוף נתונים ולכוונן מודל של רשת נוירונים. הם מצפים שהרובוט יעבוד ישר מהקופסה, ואם משהו משתבש, הם צריכים מנגנון אינטואיטיבי כדי לתקן אותו. זה האתגר שהתמודדנו איתו במאמר זה", אומר פליקס יאנוויי וואנג, סטודנט לתואר שני במחלקה להנדסת חשמל ומדעי המחשב (EECS) ב-MIT והמחבר הראשי של המחקר.

מזער את הסטייה

לאחרונה, חוקרים השתמשו במודלים של בינה מלאכותית גנרטיבית שאומנו מראש כדי ללמוד "מדיניות" - קבוצת כללים שרובוט פועל לפיה כדי להשלים משימה. מודלים אלה יכולים לפתור משימות מורכבות רבות.

במהלך האימון, המודל נחשף רק לתנועות רובוט תקפות, ולכן הוא לומד ליצור מסלולי תנועה מתאימים.

עם זאת, אין פירוש הדבר שכל פעולה שרובוט מבצע תתאים לציפיות בפועל של המשתמש. לדוגמה, רובוט עשוי להיות מאומן להרים קופסאות ממדף מבלי להפיל אותן, אך עלול לא להגיע לקופסה על מדף הספרים של מישהו אם סידור מדף הספרים שונה ממה שראה במהלך האימון.

כדי לתקן שגיאות כאלה, מהנדסים אוספים לעתים קרובות נתונים נוספים על משימות חדשות ומאמנים מחדש את המודל, תהליך יקר וגוזל זמן הדורש מומחיות בלמידת מכונה.

במקום זאת, צוות MIT רוצה לאפשר למשתמשים להתאים את התנהגות הרובוט ברגע שהוא עושה טעות.

עם זאת, אם אדם מתערב בתהליך קבלת ההחלטות של הרובוט, הדבר עלול לגרום בטעות למודל הגנרטיבי לבחור פעולה לא חוקית. הרובוט עשוי להשיג את הקופסה שהאדם רוצה, אך עלול להפיל ספרים מהמדף בתהליך.

"אנחנו רוצים שמשתמשים יקיימו אינטראקציה עם הרובוט מבלי לעשות טעויות כאלה, ובכך ישיגו התנהגות התואמת טוב יותר את כוונות המשתמש, תוך הבטחת תקפות וישימות", אמר פליקס יאנוויי וואנג.

שיפור יכולת קבלת החלטות

כדי להבטיח שאינטראקציות אלו לא יגרמו לרובוט לבצע פעולות לא חוקיות, הצוות משתמש בהליך דגימה מיוחד. טכניקה זו עוזרת למודל לבחור את הפעולה מתוך קבוצה של בחירות תקפות המתאימה ביותר למטרות המשתמש.

"במקום לכפות את כוונות המשתמש, אנו עוזרים לרובוט להבין את כוונותיו, תוך כדי שאנחנו מאפשרים לתהליך הדגימה להשתנות סביב ההתנהגויות שהוא למד", אמר פליקס יאנוויי וואנג.

הודות לגישה זו, מסגרת המחקר שלהם עלתה על שיטות אחרות בניסויי סימולציה וכן בבדיקות עם זרוע רובוטית אמיתית במטבח לדוגמה.

אמנם שיטה זו לא תמיד משלימה את המשימה באופן מיידי, אך יש לה יתרון גדול עבור המשתמש: הוא יכול לתקן את הרובוט ברגע שהוא מזהה שגיאה, במקום לחכות שהרובוט יסיים את המשימה ואז לתת הוראות חדשות.

בנוסף, לאחר שהמשתמש נוגע בעדינות ברובוט מספר פעמים כדי להנחות אותו להרים את הקערה הנכונה, הרובוט יכול לזכור את התיקון הזה ולשלב אותו בלמידה עתידית, כך שלמחרת הרובוט יוכל להרים את הקערה הנכונה מבלי שיהיה צורך בהנחיה נוספת.

"אבל המפתח לשיפור מתמיד זה הוא ליצור מנגנון שבו משתמשים יכולים לתקשר עם הרובוט, וזה בדיוק מה שהדגמנו במחקר הזה", אמר פליקס יאנוויי וואנג.

בעתיד, הצוות רוצה להאיץ את תהליך הדגימה תוך שמירה או שיפור הביצועים. הם גם רוצים לבחון את השיטה בסביבות חדשות כדי להעריך את יכולת ההסתגלות של הרובוט.

(מקור: חדשות MIT)