image bài 19.jpg
Феликс Яньвэй Ван — аспирант кафедры электротехники и информатики Массачусетского технологического института (MIT). Источник: Новости MIT.

Представьте себе робота, помогающего вам мыть посуду. Вы просите его достать миску с мылом из раковины, но его захваты не хватают его точно в нужном месте.

Благодаря новой методологии, разработанной исследователями из MIT и NVIDIA, вы можете управлять поведением робота с помощью простых жестов. Вы можете указать на миску или нарисовать траекторию на экране, или просто слегка толкнуть руку робота в нужном направлении.

В отличие от других методов модификации поведения роботов, эта техника не требует от пользователей сбора новых данных и переобучения модели машинного обучения, управляющей роботом. Вместо этого она позволяет роботу использовать интуитивно понятную обратную связь от человека в режиме реального времени для выбора последовательности действий, которая наилучшим образом соответствует намерениям пользователя.

Когда исследователи протестировали эту методологическую основу, ее показатель успешности оказался на 21% выше, чем у альтернативного метода, не предполагающего участия человека.

В будущем эта методологическая основа может упростить пользователям управление роботом, обученным на заводе, для выполнения различных бытовых задач, даже если робот никогда раньше не видел окружающую среду или предметы в этом доме.

«Мы не можем ожидать, что среднестатистический пользователь будет вручную собирать данные и точно настраивать модель нейронной сети. Он ожидает, что робот будет работать сразу после распаковки, и если возникнет ошибка, ему понадобится интуитивно понятный механизм для ее исправления. Именно эту задачу мы и решили в данном исследовании», — сказал Феликс Яньвэй Ван, аспирант кафедры электротехники и компьютерных наук Массачусетского технологического института и ведущий автор исследования.

Свести к минимуму отклонения

В последнее время исследователи используют предварительно обученные модели генеративного искусственного интеллекта для изучения «политики» — набора правил, которым роботы следуют для выполнения задачи. Эти модели способны решать множество сложных задач.

В процессе обучения модель подвергается воздействию только допустимых движений робота, благодаря чему она учится создавать соответствующие траектории.

Однако это не означает, что каждое действие робота будет соответствовать желаниям пользователя в реальности. Например, робота могут обучить доставать коробки с полки, не опрокидывая их, но он может не суметь достать коробку с книжной полки, если расположение книг на полке отличается от того, что он видел во время обучения.

Для устранения подобных ошибок инженеры обычно собирают больше данных по новой задаче и переобучают модель — дорогостоящий и трудоемкий процесс, требующий экспертных знаний в области машинного обучения.

Вместо этого исследовательская группа из Массачусетского технологического института хочет позволить пользователям корректировать поведение робота сразу же после того, как он совершит ошибку.

Однако, если люди вмешиваются в процесс принятия решений роботом, это может непреднамеренно привести к тому, что генеративная модель выберет неверное действие. Робот может достать нужную пользователю коробку, но при этом опрокинуть книги на полке.

«Мы хотим, чтобы пользователи взаимодействовали с роботом, не совершая подобных ошибок, тем самым добиваясь поведения, более соответствующего намерениям пользователя, и при этом обеспечивая достоверность и осуществимость», — сказал Феликс Яньвэй Ван.

Повышение эффективности принятия решений

Чтобы гарантировать, что эти взаимодействия не приведут к выполнению роботом недопустимых действий, исследовательская группа использовала специальный процесс выборки. Эта техника помогает модели выбрать из набора допустимых вариантов действие, которое наилучшим образом соответствует цели пользователя.

«Вместо того чтобы навязывать свою волю пользователю, мы помогаем роботу понять его намерения и позволяем процессу отбора проб колебаться в зависимости от моделей поведения, которым он научился», — сказал Феликс Яньвэй Ван.

Благодаря этому методу, их исследовательская методика превзошла другие методы как в имитационных экспериментах, так и в тестировании с использованием реальных роботизированных манипуляторов на макете кухни.

Хотя этот метод не всегда позволяет выполнить задачу мгновенно, он предоставляет пользователям значительное преимущество: они могут починить робота, как только обнаружат неисправность, вместо того чтобы ждать, пока робот завершит задачу, прежде чем давать новые инструкции.

Кроме того, после того как пользователь несколько раз слегка подтолкнет робота, чтобы направить его к нужной миске, робот сможет запомнить это корректирующее действие и интегрировать его в свой будущий процесс обучения. В результате на следующий день робот сможет взять нужную миску без дополнительных инструкций.

«Но ключ к этому постоянному совершенствованию — наличие механизма взаимодействия пользователей с роботом, и именно это мы продемонстрировали в данном исследовании», — сказал Феликс Яньвэй Ван.

В будущем исследовательская группа планирует увеличить скорость процесса отбора проб, сохранив или повысив при этом эффективность. Они также хотят протестировать этот метод в новых условиях, чтобы оценить адаптивность робота.

(Источник: MIT News)