تصویر بای ۱۹.jpg
فلیکس یانوی وانگ - دانشجوی کارشناسی ارشد مهندسی برق و علوم کامپیوتر (EECS) در دانشگاه MIT. منبع: اخبار MIT

تصور کنید رباتی در شستن ظرف‌ها به شما کمک می‌کند. از او می‌خواهید که یک کاسه صابون را از سینک بردارد، اما گیره‌هایش آن را دقیقاً در جایی که لازم است نمی‌گیرند.

با یک چارچوب روش‌شناسی جدید که توسط محققان MIT و NVIDIA توسعه داده شده است، می‌توانید رفتار ربات را با حرکات ساده کنترل کنید. می‌توانید به کاسه اشاره کنید یا مسیری را روی صفحه نمایش بکشید، یا به سادگی بازوی ربات را به آرامی در جهت درست فشار دهید.

برخلاف سایر روش‌های اصلاح رفتار ربات، این تکنیک نیازی به جمع‌آوری داده‌های جدید توسط کاربران و آموزش مجدد مدل یادگیری ماشینی کنترل‌کننده ربات ندارد. در عوض، به ربات اجازه می‌دهد تا از بازخورد انسانیِ شهودی و بلادرنگ برای انتخاب توالی اقداماتی که به بهترین وجه با اهداف کاربر همسو هستند، استفاده کند.

وقتی محققان این چارچوب روش‌شناختی را آزمایش کردند، میزان موفقیت آن ۲۱ درصد بیشتر از روش جایگزینی بود که از مداخله انسانی استفاده نمی‌کرد.

در آینده، این چارچوب روش‌شناسی می‌تواند هدایت یک ربات آموزش‌دیده در کارخانه را برای انجام وظایف مختلف خانگی، حتی اگر ربات قبلاً هرگز محیط یا اشیاء آن خانه را ندیده باشد، برای کاربران آسان‌تر کند.

فلیکس یانوی وانگ، دانشجوی کارشناسی ارشد مهندسی برق و علوم کامپیوتر (EECS) در دانشگاه MIT و نویسنده اصلی این مطالعه، گفت: «ما نمی‌توانیم از یک کاربر معمولی انتظار داشته باشیم که داده‌ها را به صورت دستی جمع‌آوری کرده و یک مدل شبکه عصبی را به دقت تنظیم کند. آنها انتظار دارند که ربات به طور خودکار کار کند و اگر خطایی رخ دهد، به یک مکانیسم شهودی برای تنظیم آن نیاز دارند. این چالشی است که ما در این تحقیق به آن پرداختیم.»

به حداقل رساندن انحرافات

اخیراً، محققان از مدل‌های هوش مصنوعی مولد از پیش آموزش‌دیده برای یادگیری یک «سیاست» استفاده کرده‌اند - مجموعه‌ای از قوانین که ربات‌ها برای انجام یک کار از آنها پیروی می‌کنند. این مدل‌ها می‌توانند بسیاری از وظایف پیچیده را حل کنند.

در طول آموزش، مدل فقط در معرض حرکات معتبر ربات قرار می‌گیرد، بنابراین یاد می‌گیرد که مسیرهای مناسب را ایجاد کند.

با این حال، این بدان معنا نیست که هر اقدام ربات در واقعیت با خواسته‌های کاربر همسو خواهد بود. به عنوان مثال، یک ربات ممکن است آموزش ببیند که جعبه‌ها را از قفسه بدون انداختن آنها بردارد، اما اگر طرح قفسه کتاب با آنچه در طول آموزش دیده متفاوت باشد، ممکن است در رسیدن به جعبه‌ای در قفسه کتاب کسی شکست بخورد.

برای غلبه بر چنین خطاهایی، مهندسان معمولاً داده‌های بیشتری را در مورد وظیفه جدید جمع‌آوری کرده و مدل را دوباره آموزش می‌دهند، فرآیندی پرهزینه و زمان‌بر که نیاز به تخصص در یادگیری ماشین دارد.

در عوض، تیم تحقیقاتی در MIT می‌خواهد به کاربران اجازه دهد به محض اینکه ربات اشتباه کرد، رفتار آن را تنظیم کنند.

با این حال، اگر انسان‌ها در فرآیند تصمیم‌گیری ربات دخالت کنند، می‌تواند ناخواسته باعث شود مدل مولد یک اقدام نامعتبر را انتخاب کند. ربات ممکن است جعبه‌ای را که کاربر می‌خواهد بازیابی کند، اما در این فرآیند می‌تواند کتاب‌های روی قفسه را نیز واژگون کند.

فلیکس یانوی وانگ گفت: «ما می‌خواهیم کاربران بدون ارتکاب چنین اشتباهاتی با ربات تعامل داشته باشند و در نتیجه به رفتاری دست یابند که با نیت کاربر سازگارتر باشد، در عین حال که اعتبار و امکان‌پذیری آن را نیز تضمین می‌کند.»

افزایش قابلیت‌های تصمیم‌گیری

برای اطمینان از اینکه این تعاملات باعث نمی‌شوند ربات اقدامات نامعتبری انجام دهد، تیم تحقیقاتی از یک فرآیند نمونه‌گیری ویژه استفاده کرد. این تکنیک به مدل کمک می‌کند تا عملی را از مجموعه‌ای از گزینه‌های معتبر انتخاب کند که به بهترین وجه با هدف کاربر مطابقت داشته باشد.

فلیکس یانوی وانگ گفت: «به جای تحمیل اراده خود به کاربر، به ربات کمک می‌کنیم تا نیات او را درک کند و به فرآیند نمونه‌گیری اجازه می‌دهد تا حول رفتارهایی که آموخته است، نوسان داشته باشد.»

به لطف این روش، چارچوب تحقیقاتی آنها در آزمایش‌های شبیه‌سازی و همچنین آزمایش با بازوهای رباتیک واقعی در یک آشپزخانه مدل، از سایر روش‌ها پیشی گرفت.

اگرچه این روش همیشه کار را بلافاصله انجام نمی‌دهد، اما مزیت قابل توجهی را برای کاربران ارائه می‌دهد: آنها می‌توانند به محض تشخیص نقص، ربات را تعمیر کنند، به جای اینکه منتظر بمانند تا ربات کار را انجام دهد و سپس دستورالعمل‌های جدید را ارائه دهند.

علاوه بر این، پس از اینکه کاربر چند بار به آرامی ربات را هل می‌دهد تا آن را برای برداشتن کاسه صحیح هدایت کند، ربات می‌تواند آن اقدام اصلاحی را به خاطر بسپارد و آن را در فرآیند یادگیری آینده خود ادغام کند. در نتیجه، روز بعد، ربات می‌تواند کاسه صحیح را بدون نیاز به آموزش بیشتر بردارد.

فلیکس یانوی وانگ گفت: «اما کلید این بهبود مستمر، داشتن مکانیسمی برای تعامل کاربران با ربات است و این دقیقاً همان چیزی است که ما در این تحقیق نشان داده‌ایم.»

در آینده، تیم تحقیقاتی قصد دارد سرعت فرآیند نمونه‌برداری را افزایش دهد و در عین حال کارایی را حفظ یا بهبود بخشد. آنها همچنین می‌خواهند این روش را در محیط‌های جدید آزمایش کنند تا سازگاری ربات را ارزیابی کنند.

(منبع: اخبار MIT)