Нове дослідження дозволяє людям коригувати дії роботів у режимі реального часу, подібно до того, як вони надають зворотний зв'язок іншій людині.

Уявіть собі робота, який допомагає вам мити посуд. Ви просите його дістати миску з милом з раковини, але його захоплення не зовсім правильно фіксують положення.
Завдяки новій методологічній основі, розробленій дослідниками з MIT та NVIDIA, ви можете керувати поведінкою робота простими жестами. Ви можете вказати на миску або намалювати шлях на екрані, або просто обережно штовхнути руку робота в потрібному напрямку.
На відміну від інших методів модифікації поведінки роботів, цей метод не вимагає від користувачів збору нових даних та перенавчання моделі машинного навчання, що керує роботом. Натомість він дозволяє роботу використовувати інтуїтивно зрозумілий зворотний зв'язок від людини в режимі реального часу для вибору послідовності дій, яка найкраще відповідає намірам користувача.
Коли дослідники протестували цю методологічну основу, її рівень успішності був на 21% вищим, ніж у альтернативного методу, який не використовував втручання людини.
У майбутньому ця методологічна база може спростити для користувачів керування роботом, навченим на заводі, для виконання різних домашніх завдань, навіть якщо робот ніколи раніше не бачив оточення чи предметів у цьому будинку.
«Ми не можемо очікувати, що пересічний користувач вручну збиратиме дані та налаштовуватиме модель нейронної мережі. Вони очікуватимуть, що робот працюватиме одразу після розпакування, і якщо виникне помилка, їм знадобиться інтуїтивно зрозумілий механізм для її налаштування. Саме цю проблему ми розглядали в цьому дослідженні», – сказав Фелікс Янвей Ван, аспірант кафедри електротехніки та інформатики (EECS) Массачусетського технологічного інституту та провідний автор дослідження.
Мінімізація відхилень
Нещодавно дослідники використовували попередньо навчені генеративні моделі штучного інтелекту для вивчення «політики» — набору правил, яких дотримуються роботи для виконання завдання. Ці моделі можуть вирішувати багато складних завдань.
Під час навчання модель стикається лише з допустимими рухами робота, тому вона вчиться створювати відповідні траєкторії.
Однак це не означає, що кожна дія робота насправді відповідатиме бажанням користувача. Наприклад, робота можна навчити діставати коробки з полиці, не перекидаючи їх, але він може не дістатися до коробки на чиїйсь книжковій полиці, якщо розташування книжкової полиці відрізняється від того, що він бачив під час навчання.
Щоб подолати такі помилки, інженери зазвичай збирають більше даних про нове завдання та перенавчають модель, що є дорогим та трудомістким процесом, що вимагає досвіду в машинному навчанні.
Натомість, дослідницька група Массачусетського технологічного інституту хоче дозволити користувачам коригувати поведінку робота, щойно він робить помилку.
Однак, якщо люди втручаються в процес прийняття рішень роботом, це може ненавмисно призвести до того, що генеративна модель вибере недійсну дію. Робот може дістати потрібну користувачеві коробку, але при цьому може перекинути книги на полиці.
«Ми хочемо, щоб користувачі взаємодіяли з роботом, не роблячи таких помилок, тим самим досягаючи поведінки, яка більше відповідає намірам користувача, водночас забезпечуючи обґрунтованість та доцільність», – сказав Фелікс Янвей Ван.
Покращення можливостей прийняття рішень
Щоб переконатися, що ці взаємодії не призводять до виконання роботом недійсних дій, дослідницька група використала спеціальний процес вибірки. Цей метод допомагає моделі вибрати дію з набору допустимих варіантів, яка найкраще відповідає меті користувача.
«Замість того, щоб нав’язувати свою волю користувачеві, ми допомагаємо роботу зрозуміти його наміри та дозволяємо процесу вибірки коливатися навколо вивченої ним поведінки», – сказав Фелікс Янвей Ван.
Завдяки цьому методу їхня дослідницька структура перевершила інші методи в симуляційних експериментах, а також у тестуванні з реальними роботизованими руками на модельній кухні.
Хоча цей метод не завжди виконує завдання негайно, він пропонує користувачам значну перевагу: вони можуть виправити робота, щойно виявлять несправність, замість того, щоб чекати, поки робот виконає завдання, перш ніж давати нові інструкції.
Крім того, після того, як користувач кілька разів обережно штовхне робота, щоб той підняв правильну миску, робот може запам'ятати цю коригувальну дію та інтегрувати її у свій майбутній процес навчання. В результаті, наступного дня робот може підняти правильну миску без потреби в додаткових інструкціях.
«Але ключем до цього постійного вдосконалення є механізм взаємодії користувачів з роботом, і саме це ми продемонстрували в цьому дослідженні», – сказав Фелікс Янвей Ван.
У майбутньому дослідницька група прагне збільшити швидкість процесу відбору проб, зберігаючи або підвищуючи ефективність. Вони також хочуть випробувати цей метод у нових середовищах, щоб оцінити адаптивність робота.
(Джерело: Новини MIT)
Джерело: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






Коментар (0)