фото 19.jpg
Фелікс Яньвей Ван - аспірант з електротехніки та інформатики (EECS) MIT. Джерело: MIT News

Уявіть, що робот допомагає вам мити посуд. Ви просите його взяти миску з милом з раковини, але його захоплення не хапає саме там, де потрібно.

Завдяки новій платформі, розробленій дослідниками з MIT та NVIDIA, ви можете керувати поведінкою робота простими жестами. Ви можете вказати на миску або намалювати шлях на екрані, або просто підштовхнути руку робота в потрібному напрямку.

На відміну від інших підходів до зміни поведінки робота, цей метод не вимагає від користувача збору нових даних та перенавчання моделі машинного навчання, яка керує роботом. Натомість він дозволяє роботу використовувати візуальний зворотний зв'язок від людини в режимі реального часу для вибору послідовності дій, яка найкраще відповідає наміру користувача.

Коли дослідники протестували цю систему, її рівень успішності був на 21% вищим, ніж у альтернативного підходу, який не використовував втручання людини.

У майбутньому ця платформа може спростити для користувача завдання навчити робота, навченого на заводі, виконувати різні побутові завдання, навіть якщо робот ніколи раніше не бачив цього середовища чи предметів у цьому будинку.

«Ми не можемо очікувати, що звичайні користувачі збиратимуть дані та точно налаштовуватимуть модель нейронної мережі. Вони очікують, що робот працюватиме одразу після розпакування, і якщо щось піде не так, їм потрібен інтуїтивно зрозумілий механізм для виправлення. Саме цю проблему ми вирішили в цій статті», — каже Фелікс Янвей Ван, аспірант кафедри електротехніки та інформатики (EECS) Массачусетського технологічного інституту та провідний автор дослідження.

Мінімізувати відхилення

Нещодавно дослідники використовували попередньо навчені генеративні моделі штучного інтелекту для вивчення «політики» — набору правил, яких дотримується робот для виконання завдання. Ці моделі можуть вирішувати багато складних завдань.

Під час навчання модель стикається лише з допустимими рухами робота, тому вона вчиться генерувати відповідні траєкторії руху.

Однак це не означає, що кожна дія робота відповідатиме фактичним очікуванням користувача. Наприклад, робота можна навчити піднімати коробки з полиці, не перекидаючи їх, але він може не дістатися до коробки на чиїйсь книжковій полиці, якщо розташування книжкової полиці відрізняється від того, що він бачив під час навчання.

Щоб виправити такі помилки, інженери часто збирають додаткові дані про нові завдання та перенавчають модель, що є дорогим та трудомістким процесом, що вимагає досвіду машинного навчання.

Натомість команда MIT хоче дозволити користувачам коригувати поведінку робота, щойно він робить помилку.

Однак, якщо людина втручається в процес прийняття рішень роботом, це може випадково призвести до того, що генеративна модель вибере недійсну дію. Робот може отримати коробку, яку хоче людина, але в процесі може перекинути книги на полиці.

«Ми хочемо, щоб користувачі взаємодіяли з роботом, не роблячи таких помилок, тим самим досягаючи поведінки, яка краще відповідає намірам користувача, водночас забезпечуючи обґрунтованість та доцільність», – сказав Фелікс Янвей Ван.

Покращуйте здатність приймати рішення

Щоб гарантувати, що ці взаємодії не призведуть до недійсних дій робота, команда використовує спеціальну процедуру вибірки. Цей метод допомагає моделі вибрати дію з набору допустимих варіантів, яка найкраще відповідає цілям користувача.

«Замість того, щоб нав’язувати користувачеві його наміри, ми допомагаємо роботу зрозуміти його наміри, водночас дозволяючи процесу вибірки коливатися навколо вивченої ним поведінки», – сказав Фелікс Янвей Ван.

Завдяки такому підходу, їхня дослідницька система перевершила інші методи в симуляційних експериментах, а також у тестуванні з використанням справжньої роботизованої руки на модельній кухні.

Хоча цей метод не завжди виконує завдання миттєво, він має велику перевагу для користувача: він може виправити робота, щойно виявить помилку, замість того, щоб чекати, поки робот виконає завдання, а потім давати нові інструкції.

Крім того, після того, як користувач кілька разів обережно підштовхне робота, щоб він підняв правильну миску, робот запам'ятає це виправлення та врахує його в майбутньому навчанні, тож наступного дня робот зможе підняти правильну миску без необхідності повторного керівництва.

«Але ключем до цього постійного вдосконалення є механізм взаємодії користувачів з роботом, і саме це ми продемонстрували в цьому дослідженні», – сказав Фелікс Янвей Ван.

У майбутньому команда хоче пришвидшити процес відбору проб, зберігаючи або покращуючи продуктивність. Вони також хочуть протестувати метод у нових середовищах, щоб оцінити адаптивність робота.

(Джерело: Новини MIT)