Nový výzkum umožňuje lidem upravovat činnosti robotů v reálném čase, podobně jako by poskytovali zpětnou vazbu jiné osobě.

Představte si robota, který vám pomáhá mýt nádobí. Požádáte ho, aby z dřezu vyndal misku s mýdlem, ale jeho chapadla ji neuchopí přesně tam, kde je potřeba.
Díky novému metodologickému rámci vyvinutému výzkumníky z MIT a společnosti NVIDIA můžete ovládat chování robota jednoduchými gesty. Můžete ukázat na mísu, nakreslit cestu na obrazovce nebo jednoduše jemně zatlačit robotickou paži správným směrem.
Na rozdíl od jiných metod modifikace chování robotů tato technika nevyžaduje, aby uživatelé shromažďovali nová data a přeškolovali model strojového učení, který robota řídí. Místo toho umožňuje robotovi využívat intuitivní lidskou zpětnou vazbu v reálném čase k výběru posloupnosti akcí, která nejlépe odpovídá záměrům uživatele.
Když vědci testovali tento metodologický rámec, jeho míra úspěšnosti byla o 21 % vyšší než u alternativní metody, která nevyužívala lidský zásah.
V budoucnu by tento metodologický rámec mohl uživatelům usnadnit vedení robota vycvičeného v továrně k provádění různých domácích úkolů, a to i v případě, že robot dané prostředí nebo předměty v daném domě nikdy předtím neviděl.
„Nemůžeme očekávat, že průměrný uživatel bude ručně shromažďovat data a dolaďovat model neuronové sítě. Očekává, že robot bude fungovat ihned po vybalení z krabice, a pokud dojde k chybě, potřebuje intuitivní mechanismus k jejímu nastavení. To je výzva, kterou jsme v tomto výzkumu řešili,“ řekl Felix Yanwei Wang, postgraduální student elektrotechniky a informatiky (EECS) na MIT a hlavní autor studie.
Minimalizujte odchylky
V poslední době vědci použili předem natrénované generativní modely umělé inteligence k naučení „zásad“ – souboru pravidel, která roboti dodržují k dokončení úkolu. Tyto modely dokáží vyřešit mnoho složitých úkolů.
Během trénování je model vystaven pouze platným pohybům robota, takže se naučí vytvářet vhodné trajektorie.
To však neznamená, že každá akce robota bude ve skutečnosti odpovídat přáním uživatele. Například robot by mohl být vycvičen k vyzvednutí krabic z police, aniž by je převrhl, ale nemusí dosáhnout krabice v něčí knihovně, pokud se rozvržení knihovny liší od toho, co viděl během tréninku.
Aby se těmto chybám vyhnuli, inženýři obvykle shromažďují více dat o novém úkolu a přetrénují model, což je nákladný a časově náročný proces, který vyžaduje odborné znalosti v oblasti strojového učení.
Výzkumný tým na MIT chce místo toho umožnit uživatelům upravit chování robota, jakmile udělá chybu.
Pokud by však lidé zasahovali do rozhodovacího procesu robota, mohlo by to neúmyslně způsobit, že generativní model zvolí neplatnou akci. Robot by sice mohl načíst krabici, kterou uživatel chce, ale přitom by mohl převrhnout knihy v poličce.
„Chceme, aby uživatelé interagovali s robotem, aniž by dělali takové chyby, a tím dosáhli chování, které je více v souladu se záměrem uživatele, a zároveň zajistili platnost a proveditelnost,“ řekl Felix Yanwei Wang.
Zlepšit rozhodovací schopnosti
Aby se zajistilo, že tyto interakce nezpůsobí, že robot provede neplatné akce, výzkumný tým použil speciální proces vzorkování. Tato technika pomáhá modelu vybrat akci z množiny platných možností, která nejlépe odpovídá cíli uživatele.
„Místo toho, abychom uživateli vnucovali naši vůli, pomáháme robotovi pochopit jeho záměry a umožňujeme, aby proces vzorkování kolísal kolem chování, které se robot naučil,“ řekl Felix Yanwei Wang.
Díky této metodě jejich výzkumný rámec překonal jiné metody v simulačních experimentech i při testování se skutečnými robotickými rameny v modelové kuchyni.
Ačkoli tato metoda ne vždy dokončí úkol okamžitě, nabízí uživatelům značnou výhodu: mohou robota opravit, jakmile zjistí závadu, místo aby čekali, až robot úkol dokončí, než zadají nové pokyny.
Navíc poté, co uživatel robota několikrát jemně zatlačí, aby ho navedl k uchopení správné misky, si robot tuto nápravnou akci zapamatuje a integruje ji do svého budoucího procesu učení. Díky tomu dokáže robot následující den uchopit správnou misku bez nutnosti dalších instrukcí.
„Klíčem k tomuto neustálému zlepšování je však mechanismus, kterým mohou uživatelé s robotem interagovat, a přesně to jsme v tomto výzkumu demonstrovali,“ řekl Felix Yanwei Wang.
V budoucnu si výzkumný tým klade za cíl zvýšit rychlost procesu odběru vzorků a zároveň zachovat nebo zlepšit efektivitu. Chtějí také tuto metodu otestovat v nových prostředích, aby posoudili adaptabilitu robota.
(Zdroj: Zprávy MIT)
Zdroj: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






Komentář (0)