عکس ۱۹.jpg
فلیکس یانوی وانگ - دانشجوی دکترا در مهندسی برق و علوم کامپیوتر (EECS) MIT. منبع: MIT News

تصور کنید یک ربات در شستن ظرف‌ها به شما کمک می‌کند. از او می‌خواهید که یک کاسه صابون را از سینک بردارد، اما گیره‌اش دقیقاً جایی را که باید بگیرد، نمی‌گیرد.

با چارچوب جدیدی که توسط محققان MIT و NVIDIA توسعه داده شده است، می‌توانید رفتار یک ربات را با حرکات ساده کنترل کنید. می‌توانید به یک کاسه اشاره کنید یا مسیری را روی صفحه بکشید، یا به سادگی بازوی ربات را در جهت درست حرکت دهید.

برخلاف سایر رویکردهای اصلاح رفتار ربات، این تکنیک نیازی به جمع‌آوری داده‌های جدید توسط کاربر و آموزش مجدد مدل یادگیری ماشینی که ربات را کنترل می‌کند، ندارد. در عوض، به ربات اجازه می‌دهد تا از بازخورد بصری انسان در زمان واقعی برای انتخاب توالی عملی که به بهترین وجه با هدف کاربر مطابقت دارد، استفاده کند.

وقتی محققان این چارچوب را آزمایش کردند، میزان موفقیت آن ۲۱ درصد بیشتر از رویکرد جایگزینی بود که از مداخله انسانی استفاده نمی‌کرد.

در آینده، این چارچوب می‌تواند به کاربر کمک کند تا به راحتی به یک ربات آموزش‌دیده در کارخانه، دستور انجام کارهای مختلف خانگی را بدهد، حتی اگر ربات قبلاً هرگز محیط یا اشیاء آن خانه را ندیده باشد.

فلیکس یانوی وانگ، دانشجوی کارشناسی ارشد رشته مهندسی برق و علوم کامپیوتر (EECS) در دانشگاه MIT و نویسنده اصلی این مطالعه می‌گوید: «ما نمی‌توانیم از کاربران عادی انتظار داشته باشیم که داده‌ها را جمع‌آوری کرده و یک مدل شبکه عصبی را به دقت تنظیم کنند. آنها انتظار دارند که ربات به طور خودکار کار کند و اگر مشکلی پیش بیاید، به یک مکانیسم شهودی برای اصلاح آن نیاز دارند. این چالشی است که ما در این مقاله به آن پرداختیم.»

به حداقل رساندن انحراف

اخیراً، محققان از مدل‌های هوش مصنوعی مولد از پیش آموزش‌دیده برای یادگیری یک «سیاست» - مجموعه‌ای از قوانین که یک ربات برای انجام یک کار دنبال می‌کند - استفاده کرده‌اند. این مدل‌ها می‌توانند بسیاری از وظایف پیچیده را حل کنند.

در طول آموزش، مدل فقط در معرض حرکات معتبر ربات قرار می‌گیرد، بنابراین یاد می‌گیرد که مسیرهای حرکتی مناسب را ایجاد کند.

با این حال، این بدان معنا نیست که هر عملی که یک ربات انجام می‌دهد با انتظارات واقعی کاربر مطابقت داشته باشد. به عنوان مثال، یک ربات ممکن است آموزش ببیند که جعبه‌ها را از قفسه بدون واژگون کردن آنها بردارد، اما اگر طرح قفسه کتاب با آنچه در طول آموزش دیده متفاوت باشد، ممکن است نتواند به جعبه‌ای در قفسه کتاب کسی برسد.

برای رفع چنین خطاهایی، مهندسان اغلب داده‌های اضافی را در مورد وظایف جدید جمع‌آوری کرده و مدل را دوباره آموزش می‌دهند، فرآیندی پرهزینه و زمان‌بر که نیاز به تخصص یادگیری ماشین دارد.

در عوض، تیم MIT می‌خواهد به کاربران اجازه دهد به محض اینکه ربات اشتباه کرد، رفتار آن را تنظیم کنند.

با این حال، اگر یک انسان در فرآیند تصمیم‌گیری ربات دخالت کند، ممکن است به‌طور تصادفی باعث شود مدل مولد یک اقدام نامعتبر را انتخاب کند. ربات ممکن است جعبه‌ای را که انسان می‌خواهد، دریافت کند، اما در این فرآیند ممکن است کتاب‌های روی قفسه را نیز واژگون کند.

فلیکس یانوی وانگ گفت: «ما می‌خواهیم کاربران بدون ارتکاب چنین خطاهایی با ربات تعامل داشته باشند و در نتیجه به رفتاری دست یابند که با اهداف کاربر مطابقت بیشتری داشته باشد، در عین حال که اعتبار و امکان‌پذیری آن را نیز تضمین می‌کند.»

افزایش توانایی تصمیم گیری

برای اطمینان از اینکه این تعاملات باعث نمی‌شوند ربات اقدامات نامعتبری انجام دهد، تیم از یک روش نمونه‌گیری ویژه استفاده می‌کند. این تکنیک به مدل کمک می‌کند تا عملی را از مجموعه‌ای از گزینه‌های معتبر انتخاب کند که به بهترین وجه با اهداف کاربر مطابقت دارد.

فلیکس یانوی وانگ گفت: «به جای تحمیل نیات کاربر، ما به ربات کمک می‌کنیم تا نیات او را درک کند، در حالی که اجازه می‌دهیم فرآیند نمونه‌گیری حول رفتارهایی که آموخته است، نوسان کند.»

به لطف این رویکرد، چارچوب تحقیقاتی آنها در آزمایش‌های شبیه‌سازی و همچنین آزمایش با یک بازوی رباتیک واقعی در یک آشپزخانه مدل، از سایر روش‌ها پیشی گرفت.

اگرچه این روش همیشه کار را فوراً انجام نمی‌دهد، اما یک مزیت بزرگ برای کاربر دارد: آنها می‌توانند به محض تشخیص خطا، ربات را اصلاح کنند، به جای اینکه منتظر بمانند تا ربات کار را انجام دهد و سپس دستورالعمل‌های جدید بدهند.

علاوه بر این، پس از اینکه کاربر چند بار به آرامی ربات را تکان می‌دهد تا آن را برای برداشتن کاسه صحیح هدایت کند، ربات می‌تواند آن اصلاح را به خاطر بسپارد و آن را در یادگیری‌های آینده بگنجاند، بنابراین روز بعد ربات می‌تواند کاسه صحیح را بدون نیاز به راهنمایی مجدد بردارد.

فلیکس یانوی وانگ گفت: «اما کلید این بهبود مستمر، داشتن مکانیسمی برای تعامل کاربران با ربات است و این دقیقاً همان چیزی است که ما در این مطالعه نشان دادیم.»

در آینده، این تیم می‌خواهد فرآیند نمونه‌برداری را سرعت بخشد و در عین حال عملکرد را حفظ یا بهبود بخشد. آنها همچنین می‌خواهند این روش را در محیط‌های جدید آزمایش کنند تا سازگاری ربات را ارزیابی کنند.

(منبع: اخبار MIT)