bild bài 19.jpg
Felix Yanwei Wang – doktorand i elektroteknik och datavetenskap (EECS) vid MIT. Källa: MIT News

Tänk dig en robot som hjälper dig att diska. Du ber den att hämta en skål med tvål från diskhon, men dess gripare griper inte tag i den exakt där den behövs.

Med ett nytt metodramverk utvecklat av forskare vid MIT och NVIDIA kan man styra robotens beteende med enkla gester. Man kan peka på skålen eller rita en bana på skärmen, eller helt enkelt försiktigt trycka robotens arm i rätt riktning.

Till skillnad från andra metoder för att modifiera robotbeteendet kräver inte den här tekniken att användarna samlar in ny data och omskolar maskininlärningsmodellen som styr roboten. Istället låter den roboten använda intuitiv mänsklig feedback i realtid för att välja den handlingssekvens som bäst överensstämmer med användarens avsikter.

När forskare testade detta metodologiska ramverk var dess framgångsgrad 21 % högre än en alternativ metod som inte använde mänsklig intervention.

I framtiden skulle detta metodologiska ramverk kunna göra det enklare för användare att vägleda en fabrikstränad robot att utföra olika hushållssysslor, även om roboten aldrig har sett miljön eller föremålen i huset förut.

”Vi kan inte förvänta oss att den genomsnittliga användaren manuellt ska samla in data och finjustera en neural nätverksmodell. De förväntar sig att roboten ska fungera direkt ur lådan, och om ett fel uppstår behöver de en intuitiv mekanism för att justera den. Det är den utmaning vi har tagit itu med i den här forskningen”, säger Felix Yanwei Wang, doktorand i elektroteknik och datavetenskap (EECS) vid MIT och huvudförfattare till studien.

Minimera avvikelser

Nyligen har forskare använt förtränade generativa AI-modeller för att lära sig en "policy" – en uppsättning regler som robotar följer för att slutföra en uppgift. Dessa modeller kan lösa många komplexa uppgifter.

Under träningen exponeras modellen endast för giltiga robotrörelser, så den lär sig att skapa lämpliga banor.

Detta betyder dock inte att varje handling roboten gör i verkligheten kommer att överensstämma med användarens önskemål. Till exempel kan en robot tränas att hämta lådor från en hylla utan att välta dem, men kanske inte når en låda i någons bokhylla om bokhyllans layout skiljer sig från vad den såg under träningen.

För att övervinna sådana fel samlar ingenjörer vanligtvis in mer data om den nya uppgiften och omskolar modellen, en kostsam och tidskrävande process som kräver expertis inom maskininlärning.

Istället vill forskargruppen på MIT låta användare justera robotens beteende så fort den gör ett misstag.

Om människor däremot stör robotens beslutsprocess kan det oavsiktligt få den generativa modellen att välja en ogiltig åtgärd. Roboten kan hämta den låda som användaren vill ha, men kan välta böcker på hyllan i processen.

"Vi vill att användare ska interagera med roboten utan att göra sådana misstag, och därigenom uppnå ett beteende som är mer i linje med användarens avsikt, samtidigt som vi säkerställer validitet och genomförbarhet", säger Felix Yanwei Wang.

Förbättra beslutsfattande förmågan

För att säkerställa att dessa interaktioner inte får roboten att utföra ogiltiga handlingar använde forskargruppen en speciell samplingsprocess. Denna teknik hjälper modellen att välja en åtgärd från en uppsättning giltiga alternativ som bäst passar användarens mål.

"Istället för att påtvinga användaren vår vilja hjälper vi roboten att förstå deras avsikter och låter samplingsprocessen fluktuera kring de beteenden den har lärt sig", sa Felix Yanwei Wang.

Tack vare den här metoden överträffade deras forskningsramverk andra metoder i simuleringsexperiment såväl som i tester med faktiska robotarmar i ett modellkök.

Även om den här metoden inte alltid slutför uppgiften omedelbart, erbjuder den en betydande fördel för användarna: de kan åtgärda roboten så snart de upptäcker ett fel, istället för att vänta på att roboten ska slutföra uppgiften innan den ger nya instruktioner.

Dessutom, efter att användaren försiktigt knuffat roboten några gånger för att vägleda den till att plocka upp rätt skål, kan roboten komma ihåg den korrigerande åtgärden och integrera den i sin framtida inlärningsprocess. Som ett resultat kan roboten nästa dag plocka upp rätt skål utan att behöva ytterligare instruktioner.

"Men nyckeln till denna kontinuerliga förbättring är att ha en mekanism för användare att interagera med roboten, och det är precis vad vi har visat i den här forskningen", sa Felix Yanwei Wang.

I framtiden siktar forskargruppen på att öka hastigheten på provtagningsprocessen samtidigt som effektiviteten bibehålls eller förbättras. De vill också testa metoden i nya miljöer för att bedöma robotens anpassningsförmåga.

(Källa: MIT News)