fotografie 19.jpg
Felix Yanwei Wang - doktorand v oboru elektrotechniky a informatiky (EECS) na MIT. Zdroj: MIT News

Představte si, že vám robot pomáhá mýt nádobí. Požádáte ho, aby z dřezu vzal misku s mýdlem, ale jeho chapadlo ho neuchopí přesně tam, kam potřebuje.

Díky novému frameworku vyvinutému výzkumníky z MIT a NVIDIA můžete ovládat chování robota jednoduchými gesty. Můžete ukázat na misku, nakreslit cestu na obrazovce nebo jednoduše postrčit robotovu paži správným směrem.

Na rozdíl od jiných přístupů k modifikaci chování robota tato technika nevyžaduje, aby uživatel shromažďoval nová data a přeškoloval model strojového učení, který robota řídí. Místo toho umožňuje robotovi využívat vizuální zpětnou vazbu od člověka v reálném čase k výběru sekvence akcí, která nejlépe odpovídá záměru uživatele.

Když vědci testovali tento rámec, jeho míra úspěšnosti byla o 21 % vyšší než u alternativního přístupu, který nevyužíval lidský zásah.

V budoucnu by tento rámec mohl uživateli usnadnit instrukce robota vyškoleného v továrně k provádění různých domácích úkolů, a to i v případě, že robot dané prostředí nebo předměty v daném domě nikdy předtím neviděl.

„Nemůžeme očekávat, že běžní uživatelé budou shromažďovat data a dolaďovat model neuronové sítě. Očekávají, že robot bude fungovat hned po vybalení z krabice, a pokud se něco pokazí, potřebují intuitivní mechanismus k nápravě. To je výzva, kterou jsme se v tomto článku zabývali,“ říká Felix Yanwei Wang, postgraduální student katedry elektrotechniky a informatiky (EECS) na MIT a hlavní autor studie.

Minimalizovat odchylku

V poslední době vědci použili předem natrénované generativní modely umělé inteligence k naučení „zásad“ – souboru pravidel, která robot dodržuje k dokončení úkolu. Tyto modely dokáží vyřešit mnoho složitých úkolů.

Během trénování je model vystaven pouze platným pohybům robota, takže se naučí generovat vhodné trajektorie pohybu.

To však neznamená, že každá akce, kterou robot provede, bude odpovídat skutečným očekáváním uživatele. Například robot může být vycvičen k tomu, aby zvedl krabice z police, aniž by je shodil, ale nemusí dosáhnout krabice v něčí knihovně, pokud se rozvržení knihovny liší od toho, co viděl během tréninku.

Aby inženýři takové chyby opravili, často shromažďují další data o nových úkolech a přetrénují model, což je nákladný a časově náročný proces, který vyžaduje odborné znalosti strojového učení.

Tým MIT chce místo toho umožnit uživatelům upravit chování robota, jakmile udělá chybu.

Pokud však člověk zasáhne do rozhodovacího procesu robota, může to omylem způsobit, že generativní model zvolí neplatnou akci. Robot sice může získat krabici, kterou člověk chce, ale přitom může převrhnout knihy v poličce.

„Chceme, aby uživatelé interagovali s robotem, aniž by dělali takové chyby, a tím dosáhli chování, které lépe odpovídá jejich záměrům, a zároveň zajistili platnost a proveditelnost,“ řekl Felix Yanwei Wang.

Zlepšit schopnost rozhodování

Aby se zajistilo, že tyto interakce nezpůsobí, že robot provede neplatné akce, tým používá speciální postup vzorkování. Tato technika pomáhá modelu vybrat akci z množiny platných možností, která nejlépe odpovídá cílům uživatele.

„Místo vnucování uživatelských záměrů pomáháme robotovi pochopit jeho záměry a zároveň necháváme proces vzorkování kolísat kolem chování, které se robot naučil,“ řekl Felix Yanwei Wang.

Díky tomuto přístupu jejich výzkumný rámec překonal jiné metody v simulačních experimentech i při testování se skutečným robotickým ramenem v modelové kuchyni.

I když tato metoda ne vždy dokončí úkol okamžitě, má pro uživatele velkou výhodu: může robota opravit, jakmile zjistí chybu, místo aby čekal, až robot úkol dokončí, a poté zadával nové pokyny.

Navíc poté, co uživatel robota několikrát jemně pošťouchne, aby ho navedl k uchopení správné misky, si robot tuto opravu zapamatuje a začlení ji do budoucího učení, takže další den může robot uchopit správnou misku, aniž by musel být znovu naváděn.

„Klíčem k tomuto neustálému zlepšování je však mít mechanismus, kterým by uživatelé mohli s robotem interagovat, a přesně to jsme v této studii demonstrovali,“ řekl Felix Yanwei Wang.

V budoucnu chce tým urychlit proces vzorkování a zároveň zachovat nebo zlepšit výkon. Chtějí také otestovat metodu v nových prostředích, aby posoudili adaptabilitu robota.

(Zdroj: Zprávy MIT)