image bài 19.jpg
Felix Yanwei Wang – student studiów podyplomowych z elektrotechniki i informatyki (EECS) na MIT. Źródło: MIT News

Wyobraź sobie robota pomagającego ci myć naczynia. Prosisz go o wyjęcie miski z mydłem ze zlewu, ale jego chwytaki nie chwytają jej dokładnie tam, gdzie trzeba.

Dzięki nowej metodologii opracowanej przez naukowców z MIT i NVIDIA, możesz sterować zachowaniem robota za pomocą prostych gestów. Możesz wskazać miskę, narysować ścieżkę na ekranie lub po prostu delikatnie popchnąć ramię robota we właściwym kierunku.

W przeciwieństwie do innych metod modyfikacji zachowania robota, technika ta nie wymaga od użytkowników gromadzenia nowych danych i ponownego trenowania modelu uczenia maszynowego kontrolującego robota. Zamiast tego pozwala robotowi na wykorzystanie intuicyjnej, ludzkiej informacji zwrotnej w czasie rzeczywistym do wyboru sekwencji działań, która najlepiej odpowiada intencjom użytkownika.

Gdy badacze przetestowali tę metodę, jej wskaźnik sukcesu okazał się o 21% wyższy niż w przypadku alternatywnej metody, która nie wymagała ingerencji człowieka.

W przyszłości taka metodologia może ułatwić użytkownikom instruowanie robota przeszkolonego w fabryce w wykonywaniu różnych prac domowych, nawet jeśli robot nigdy wcześniej nie widział otoczenia ani przedmiotów znajdujących się w danym domu.

„Nie możemy oczekiwać, że przeciętny użytkownik będzie ręcznie zbierał dane i dostrajał model sieci neuronowej. Oczekuje, że robot będzie działał od razu po wyjęciu z pudełka, a w przypadku wystąpienia błędu będzie potrzebował intuicyjnego mechanizmu do jego regulacji. To właśnie wyzwanie podjęliśmy w tych badaniach” – powiedział Felix Yanwei Wang, student studiów podyplomowych z elektrotechniki i informatyki (EECS) na MIT i główny autor badania.

Minimalizuj odchylenia

Niedawno naukowcy wykorzystali wstępnie wytrenowane generatywne modele sztucznej inteligencji do nauki „polityki” – zestawu reguł, którymi roboty kierują się, aby wykonać zadanie. Modele te mogą rozwiązywać wiele złożonych zadań.

Podczas treningu model jest wystawiony wyłącznie na prawidłowe ruchy robota, dzięki czemu uczy się tworzyć odpowiednie trajektorie.

Nie oznacza to jednak, że każde działanie robota będzie w rzeczywistości zgodne z życzeniami użytkownika. Na przykład, robot może być wyszkolony do zdejmowania pudeł z półki bez ich przewracania, ale może nie dosięgnąć pudełka na czyjejś półce, jeśli układ półki będzie inny niż ten, który zaobserwował podczas szkolenia.

Aby uporać się z takimi błędami, inżynierowie zazwyczaj zbierają więcej danych na temat nowego zadania i ponownie trenują model. Jest to kosztowny i czasochłonny proces, który wymaga specjalistycznej wiedzy z zakresu uczenia maszynowego.

Zamiast tego zespół badawczy z MIT chce umożliwić użytkownikom korygowanie zachowania robota, gdy tylko popełni on błąd.

Jeśli jednak człowiek zakłóci proces decyzyjny robota, może to nieumyślnie spowodować, że model generatywny wybierze nieprawidłową akcję. Robot może odzyskać pudełko, którego chce użytkownik, ale przy okazji może przewrócić książki na półce.

„Chcemy, aby użytkownicy wchodzili w interakcje z robotem, nie popełniając tego typu błędów, co pozwoli na osiągnięcie zachowań bardziej zgodnych z intencjami użytkownika, a jednocześnie zapewni ważność i wykonalność” – powiedział Felix Yanwei Wang.

Poprawa zdolności podejmowania decyzji

Aby upewnić się, że te interakcje nie spowodują, że robot wykona nieprawidłowe działania, zespół badawczy zastosował specjalny proces próbkowania. Technika ta pomaga modelowi wybrać działanie z zestawu prawidłowych opcji, które najlepiej odpowiada celowi użytkownika.

„Zamiast narzucać użytkownikowi naszą wolę, pomagamy robotowi zrozumieć jego intencje i pozwalamy, aby proces pobierania próbek dostosowywał się do zachowań, których się nauczył” – powiedział Felix Yanwei Wang.

Dzięki tej metodzie ich ramy badawcze przewyższyły inne metody w eksperymentach symulacyjnych, a także w testach z udziałem prawdziwych ramion robotycznych w modelowej kuchni.

Choć ta metoda nie zawsze pozwala od razu wykonać zadanie, oferuje użytkownikom znaczącą zaletę: mogą naprawić robota od razu po wykryciu usterki, zamiast czekać, aż robot ukończy zadanie, zanim podadzą nowe instrukcje.

Co więcej, po tym, jak użytkownik delikatnie popchnie robota kilka razy, aby nakierować go na podniesienie właściwej miski, robot zapamięta tę czynność korygującą i zintegruje ją z przyszłym procesem uczenia się. W rezultacie, następnego dnia robot będzie mógł podnieść właściwą miskę bez potrzeby dalszych instrukcji.

„Kluczem do ciągłego doskonalenia jest jednak stworzenie mechanizmu, który umożliwi użytkownikom interakcję z robotem. Właśnie to wykazaliśmy w tym badaniu” – powiedział Felix Yanwei Wang.

W przyszłości zespół badawczy zamierza zwiększyć szybkość procesu pobierania próbek, zachowując lub poprawiając wydajność. Chcą również przetestować tę metodę w nowych środowiskach, aby ocenić zdolność adaptacji robota.

(Źródło: MIT News)