foto 19.jpg
Felix Yanwei Wang - doktorand i elektroteknik och datavetenskap (EECS) MIT. Källa: MIT News

Tänk dig att en robot hjälper dig att diska. Du ber den att ta en skål med tvål från diskhon, men dess gripare griper inte exakt där den behöver.

Med ett nytt ramverk utvecklat av forskare vid MIT och NVIDIA kan man styra en robots beteende med enkla gester. Man kan peka på en skål eller rita en bana på skärmen, eller helt enkelt knuffa robotens arm i rätt riktning.

Till skillnad från andra metoder för att modifiera robotbeteende kräver inte den här tekniken att användaren samlar in ny data och omskolar maskininlärningsmodellen som styr roboten. Istället låter den roboten använda visuell mänsklig feedback i realtid för att välja den handlingssekvens som bäst matchar användarens avsikt.

När forskare testade detta ramverk var dess framgångsgrad 21 % högre än för ett alternativt tillvägagångssätt som inte använde mänsklig intervention.

I framtiden skulle detta ramverk kunna göra det enkelt för en användare att instruera en fabrikstränad robot att utföra olika hushållssysslor, även om roboten aldrig har sett omgivningen eller föremålen i det hemmet förut.

”Vi kan inte förvänta oss att vanliga användare ska samla in data och finjustera en neural nätverksmodell. De förväntar sig att roboten ska fungera direkt ur lådan, och om något går fel behöver de en intuitiv mekanism för att korrigera det. Det är den utmaning vi har tagit oss an i den här artikeln”, säger Felix Yanwei Wang, doktorand vid institutionen för elektroteknik och datavetenskap (EECS) vid MIT och huvudförfattare till studien.

Minimera avvikelsen

Nyligen har forskare använt förtränade generativa AI-modeller för att lära sig en "policy" – en uppsättning regler som en robot följer för att slutföra en uppgift. Dessa modeller kan lösa många komplexa uppgifter.

Under träningen exponeras modellen endast för giltiga robotrörelser, så den lär sig att generera lämpliga rörelsebanor.

Detta betyder dock inte att varje handling en robot vidtar kommer att matcha användarens faktiska förväntningar. Till exempel kan en robot tränas att plocka upp lådor från en hylla utan att välta dem, men kanske inte når en låda på någons bokhylla om bokhyllans layout skiljer sig från vad den såg under träningen.

För att åtgärda sådana fel samlar ingenjörer ofta in ytterligare data om nya uppgifter och omskolar modellen, en kostsam och tidskrävande process som kräver expertis inom maskininlärning.

Istället vill MIT-teamet låta användare justera robotens beteende så fort den gör ett misstag.

Om en människa däremot stör robotens beslutsprocess kan det av misstag orsaka att den generativa modellen väljer en ogiltig åtgärd. Roboten kan få den låda människan vill ha, men kan välta böcker på hyllan i processen.

”Vi vill att användare ska interagera med roboten utan att göra sådana fel, och därigenom uppnå ett beteende som bättre matchar användarens avsikter, samtidigt som vi säkerställer validitet och genomförbarhet”, säger Felix Yanwei Wang.

Förbättra beslutsfattande förmågan

För att säkerställa att dessa interaktioner inte får roboten att vidta ogiltiga åtgärder använder teamet en speciell samplingsprocedur. Denna teknik hjälper modellen att välja den åtgärd från en uppsättning giltiga val som bäst matchar användarens mål.

”Istället för att påtvinga användarens avsikter hjälper vi roboten att förstå deras avsikter, samtidigt som vi låter samplingsprocessen variera kring de beteenden den har lärt sig”, sa Felix Yanwei Wang.

Tack vare denna metod överträffade deras forskningsramverk andra metoder i simuleringsexperiment såväl som i tester med en riktig robotarm i ett modellkök.

Även om den här metoden inte alltid slutför uppgiften omedelbart, har den en stor fördel för användaren: de kan korrigera roboten så snart de upptäcker ett fel, istället för att vänta på att roboten ska slutföra uppgiften och sedan ge nya instruktioner.

Dessutom, efter att användaren försiktigt knuffat roboten några gånger för att vägleda den att plocka upp rätt skål, kan roboten komma ihåg den korrigeringen och införliva den i framtida inlärning, så att roboten nästa dag kan plocka upp rätt skål utan att behöva vägledas igen.

"Men nyckeln till denna kontinuerliga förbättring är att ha en mekanism för användarna att interagera med roboten, och det är precis vad vi visade i den här studien", sa Felix Yanwei Wang.

I framtiden vill teamet snabba upp provtagningsprocessen samtidigt som prestandan bibehålls eller förbättras. De vill också testa metoden i nya miljöer för att bedöma robotens anpassningsförmåga.

(Källa: MIT News)