фото 19.jpg
Феликс Яньвэй Ван — аспирант кафедры электротехники и информатики Массачусетского технологического института (MIT). Источник: Новости MIT

Представьте, что робот помогает вам мыть посуду. Вы просите его взять миску с мылом из раковины, но его захват не захватывает нужное место.

Благодаря новой платформе, разработанной исследователями Массачусетского технологического института и NVIDIA, вы можете управлять поведением робота простыми жестами. Вы можете указать на миску, нарисовать путь на экране или просто подтолкнуть руку робота в нужном направлении.

В отличие от других подходов к модификации поведения робота, этот метод не требует от пользователя сбора новых данных и переобучения модели машинного обучения, управляющей роботом. Вместо этого он позволяет роботу использовать визуальную обратную связь от человека в режиме реального времени для выбора последовательности действий, наилучшим образом соответствующей намерению пользователя.

Когда исследователи протестировали эту структуру, ее успешность оказалась на 21% выше, чем у альтернативного подхода, не предполагавшего вмешательства человека.

В будущем эта структура позволит пользователю легко давать указания обученному на заводе роботу выполнять различные домашние задачи, даже если робот никогда ранее не видел окружающую среду или предметы в этом доме.

«Мы не можем ожидать, что обычные пользователи будут собирать данные и настраивать модель нейронной сети. Они ожидают, что робот будет работать сразу из коробки, а если что-то пойдёт не так, им нужен интуитивно понятный механизм для исправления. Именно эту задачу мы и решили в данной работе», — говорит Феликс Яньвэй Ван, аспирант кафедры электротехники и информатики (EECS) Массачусетского технологического института и ведущий автор исследования.

Минимизировать отклонение

Недавно исследователи использовали предварительно обученные модели генеративного ИИ для обучения «политике» — набору правил, которым робот следует для выполнения задачи. Эти модели способны решать множество сложных задач.

Во время обучения модель подвергается воздействию только допустимых движений робота, поэтому она учится генерировать соответствующие траектории движения.

Однако это не означает, что каждое действие робота будет соответствовать реальным ожиданиям пользователя. Например, робот может быть обучен поднимать коробки с полки, не опрокидывая их, но может не дотянуться до коробки на чьей-то книжной полке, если расположение книжных полок отличается от того, что он видел во время обучения.

Чтобы исправить такие ошибки, инженеры часто собирают дополнительные данные по новым задачам и переобучают модель. Это дорогостоящий и трудоемкий процесс, требующий знаний в области машинного обучения.

Вместо этого команда Массачусетского технологического института хочет позволить пользователям корректировать поведение робота сразу после того, как он совершает ошибку.

Однако, если человек вмешается в процесс принятия решений роботом, это может случайно привести к тому, что генеративная модель выберет недопустимое действие. Робот может получить нужную человеку коробку, но при этом может опрокинуть книги на полке.

«Мы хотим, чтобы пользователи взаимодействовали с роботом, не допуская подобных ошибок, тем самым достигая поведения, которое лучше соответствует намерениям пользователя, при этом обеспечивая обоснованность и осуществимость», — сказал Феликс Яньвэй Ван.

Улучшить способность принимать решения

Чтобы гарантировать, что эти взаимодействия не приведут к выполнению роботом недопустимых действий, команда использует специальную процедуру выборки. Эта методика помогает модели выбирать из набора допустимых вариантов действие, которое наилучшим образом соответствует целям пользователя.

«Вместо того чтобы навязывать намерения пользователя, мы помогаем роботу понять его намерения, позволяя при этом процессу выборки колебаться в соответствии с усвоенными моделями поведения», — сказал Феликс Яньвэй Ван.

Благодаря такому подходу их исследовательская система превзошла другие методы в имитационных экспериментах, а также при тестировании с использованием настоящей роботизированной руки на модельной кухне.

Хотя этот метод не всегда позволяет выполнить задачу немедленно, он имеет большое преимущество для пользователя: он может исправить робота сразу же после обнаружения ошибки, вместо того чтобы ждать, пока робот выполнит задачу, а затем давать новые инструкции.

Кроме того, после того как пользователь несколько раз слегка подтолкнет робота, чтобы направить его на взятие правильной миски, робот может запомнить это исправление и включить его в дальнейшее обучение, так что на следующий день робот сможет взять правильную миску без необходимости повторного наставления.

«Но ключом к этому постоянному совершенствованию является наличие механизма взаимодействия пользователей с роботом, и именно это мы продемонстрировали в данном исследовании», — сказал Феликс Яньвэй Ван.

В будущем команда планирует ускорить процесс отбора проб, сохранив или улучшив производительность. Они также планируют протестировать метод в новых условиях, чтобы оценить адаптивность робота.

(Источник: Новости MIT)