Nowe badania pozwalają ludziom dostosowywać działania robota w czasie rzeczywistym, w podobny sposób, w jaki przekazują informacje zwrotne innej osobie.
Wyobraź sobie, że robot pomaga ci umyć naczynia. Prosisz go, żeby wziął miskę z mydłem ze zlewu, ale jego chwytak nie chwyta dokładnie tam, gdzie trzeba.
Dzięki nowemu rozwiązaniu opracowanemu przez naukowców z MIT i firmy NVIDIA możesz sterować zachowaniem robota za pomocą prostych gestów. Możesz wskazać miskę, narysować ścieżkę na ekranie lub po prostu poruszyć ramieniem robota we właściwym kierunku.
W przeciwieństwie do innych podejść do modyfikacji zachowania robota, ta technika nie wymaga od użytkownika gromadzenia nowych danych i ponownego trenowania modelu uczenia maszynowego sterującego robotem. Zamiast tego pozwala robotowi na wykorzystanie wizualnej informacji zwrotnej od człowieka w czasie rzeczywistym, aby wybrać sekwencję działań najlepiej odpowiadającą intencjom użytkownika.
Kiedy naukowcy przetestowali tę metodę, jej wskaźnik sukcesu był o 21% wyższy niż w przypadku alternatywnego podejścia, które nie uwzględniało ingerencji człowieka.
W przyszłości takie rozwiązanie może ułatwić użytkownikowi instruowanie fabrycznie wyszkolonego robota, aby wykonywał różne zadania domowe, nawet jeśli robot nigdy wcześniej nie widział otoczenia ani przedmiotów znajdujących się w danym domu.
„Nie możemy oczekiwać, że zwykli użytkownicy będą zbierać dane i dostrajać model sieci neuronowej. Oczekują, że robot będzie działał od razu po wyjęciu z pudełka, a jeśli coś pójdzie nie tak, potrzebują intuicyjnego mechanizmu, który to naprawi. To właśnie wyzwanie podjęliśmy w tym artykule” – mówi Felix Yanwei Wang, student studiów podyplomowych na Wydziale Elektrotechniki i Informatyki (EECS) na MIT i główny autor badania.
Zminimalizuj odchylenie
Niedawno naukowcy wykorzystali wstępnie wytrenowane generatywne modele sztucznej inteligencji do nauki „polityki” – zestawu reguł, których robot przestrzega, aby wykonać zadanie. Modele te mogą rozwiązać wiele złożonych zadań.
Podczas treningu model jest wystawiony wyłącznie na prawidłowe ruchy robota, dzięki czemu uczy się generować odpowiednie trajektorie ruchu.
Nie oznacza to jednak, że każda czynność wykonywana przez robota będzie zgodna z rzeczywistymi oczekiwaniami użytkownika. Na przykład, robot może być wyszkolony do podnoszenia pudeł z półki bez ich przewracania, ale może nie dosięgnąć pudełka na czyjejś półce, jeśli układ półki będzie inny niż ten, który zaobserwował podczas szkolenia.
Aby naprawić takie błędy, inżynierowie często zbierają dodatkowe dane dotyczące nowych zadań i ponownie trenują model. Jest to kosztowny i czasochłonny proces, wymagający specjalistycznej wiedzy z zakresu uczenia maszynowego.
Zespół MIT chce zamiast tego dać użytkownikom możliwość modyfikowania zachowania robota, gdy tylko popełni on błąd.
Jeśli jednak człowiek zakłóci proces decyzyjny robota, może to przypadkowo spowodować, że model generatywny wybierze nieprawidłową akcję. Robot może zdobyć pudełko, którego chce człowiek, ale przy okazji może przewrócić książki na półce.
„Chcemy, aby użytkownicy wchodzili w interakcje z robotem, nie popełniając tego typu błędów, co pozwoli na osiągnięcie zachowań lepiej odpowiadających intencjom użytkownika, a jednocześnie zapewni ważność i wykonalność” – powiedział Felix Yanwei Wang.
Poprawa zdolności podejmowania decyzji
Aby mieć pewność, że te interakcje nie spowodują, że robot podejmie nieprawidłowe działania, zespół stosuje specjalną procedurę próbkowania. Ta technika pomaga modelowi wybrać działanie z zestawu prawidłowych wyborów, które najlepiej odpowiada celom użytkownika.
„Zamiast narzucać użytkownikowi jego intencje, pomagamy robotowi je zrozumieć, jednocześnie pozwalając procesowi próbkowania dostosowywać się do zachowań, których się nauczył” – powiedział Felix Yanwei Wang.
Dzięki temu podejściu ich ramy badawcze przewyższyły inne metody w eksperymentach symulacyjnych, a także w testach z prawdziwym ramieniem robota w modelowej kuchni.
Choć ta metoda nie zawsze pozwala od razu wykonać zadanie, ma ona dużą zaletę dla użytkownika: może on skorygować pracę robota od razu po wykryciu błędu, zamiast czekać, aż robot ukończy zadanie i dopiero wtedy wydawać nowe instrukcje.
Dodatkowo, gdy użytkownik kilka razy delikatnie szturchnie robota, aby nakłonić go do podniesienia właściwej miski, robot zapamięta tę korektę i uwzględni ją w przyszłym procesie uczenia się, dzięki czemu następnego dnia robot będzie mógł podnieść właściwą miskę bez konieczności ponownego nakłaniania.
„Kluczem do ciągłego doskonalenia jest jednak stworzenie mechanizmu umożliwiającego użytkownikom interakcję z robotem. Właśnie to wykazaliśmy w tym badaniu” – powiedział Felix Yanwei Wang.
W przyszłości zespół chce przyspieszyć proces pobierania próbek, zachowując lub poprawiając wydajność. Chcą również przetestować tę metodę w nowych środowiskach, aby ocenić zdolność adaptacji robota.
(Źródło: MIT News)
Source: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Komentarz (0)