bilde 19.jpg
Felix Yanwei Wang – doktorgradsstudent i elektroteknikk og informatikk (EECS) MIT. Kilde: MIT News

Tenk deg at en robot hjelper deg med å vaske opp. Du ber den om å hente en bolle med såpe fra vasken, men gripemekanismen griper ikke akkurat der den skal.

Med et nytt rammeverk utviklet av forskere ved MIT og NVIDIA, kan du kontrollere en robots oppførsel med enkle bevegelser. Du kan peke på en bolle eller tegne en bane på skjermen, eller bare dytte robotens arm i riktig retning.

I motsetning til andre tilnærminger for å modifisere roboters atferd, krever ikke denne teknikken at brukeren samler inn nye data og omskolerer maskinlæringsmodellen som styrer roboten. I stedet lar den roboten bruke visuell menneskelig tilbakemelding i sanntid for å velge handlingssekvensen som best samsvarer med brukerens intensjon.

Da forskere testet dette rammeverket, var suksessraten 21 % høyere enn en alternativ tilnærming som ikke benyttet menneskelig inngripen.

I fremtiden kan dette rammeverket gjøre det enkelt for en bruker å instruere en fabrikkopplært robot til å utføre ulike husholdningsoppgaver, selv om roboten aldri har sett omgivelsene eller gjenstandene i hjemmet før.

«Vi kan ikke forvente at vanlige brukere skal samle inn data og finjustere en nevral nettverksmodell. De forventer at roboten skal fungere rett ut av esken, og hvis noe går galt, trenger de en intuitiv mekanisme for å rette det opp. Dette er utfordringen vi har tatt tak i i denne artikkelen», sier Felix Yanwei Wang, en masterstudent ved instituttet for elektroteknikk og informatikk (EECS) ved MIT og studiens hovedforfatter.

Minimer avvik

Nylig har forskere brukt forhåndstrente generative AI-modeller for å lære en «policy» – et sett med regler som en robot følger for å fullføre en oppgave. Disse modellene kan løse mange komplekse oppgaver.

Under trening blir modellen kun eksponert for gyldige robotbevegelser, slik at den lærer å generere passende bevegelsesbaner.

Dette betyr imidlertid ikke at alle handlinger en robot foretar seg vil samsvare med brukerens faktiske forventninger. For eksempel kan en robot være trent til å plukke opp esker fra en hylle uten å velte dem, men kan mislykkes i å nå en eske i noens bokhylle hvis bokhylleoppsettet er annerledes enn det den så under treningen.

For å fikse slike feil samler ingeniører ofte inn tilleggsdata om nye oppgaver og trener modellen på nytt, en kostbar og tidkrevende prosess som krever maskinlæringsekspertise.

I stedet ønsker MIT-teamet å la brukerne justere robotens oppførsel så snart den gjør en feil.

Men hvis et menneske forstyrrer robotens beslutningsprosess, kan det ved et uhell føre til at den generative modellen velger en ugyldig handling. Roboten kan få tak i esken mennesket ønsker, men kan velte bøker i hyllen i prosessen.

«Vi ønsker at brukerne skal samhandle med roboten uten å gjøre slike feil, og dermed oppnå atferd som bedre samsvarer med brukerens intensjoner, samtidig som vi sikrer gyldighet og gjennomførbarhet», sa Felix Yanwei Wang.

Forbedre beslutningstaking

For å sikre at disse interaksjonene ikke fører til at roboten utfører ugyldige handlinger, bruker teamet en spesiell samplingsprosedyre. Denne teknikken hjelper modellen med å velge handlingen fra et sett med gyldige valg som best samsvarer med brukerens mål.

«I stedet for å påtvinge brukerens intensjoner, hjelper vi roboten med å forstå intensjonene deres, samtidig som vi lar samplingsprosessen svinge rundt atferden den har lært», sa Felix Yanwei Wang.

Takket være denne tilnærmingen utkonkurrerte forskningsrammeverket deres andre metoder i simuleringseksperimenter samt testing med en ekte robotarm i et modellkjøkken.

Selv om denne metoden ikke alltid fullfører oppgaven umiddelbart, har den en stor fordel for brukeren: de kan korrigere roboten så snart de oppdager en feil, i stedet for å vente på at roboten skal fullføre oppgaven og deretter gi nye instruksjoner.

I tillegg, etter at brukeren forsiktig har dyttet roboten et par ganger for å veilede den til å plukke opp riktig bolle, kan roboten huske den korrigeringen og innlemme den i fremtidig læring, slik at roboten kan plukke opp riktig bolle dagen etter uten å måtte veiledes igjen.

«Men nøkkelen til denne kontinuerlige forbedringen er å ha en mekanisme som gjør at brukerne kan samhandle med roboten, og det er akkurat det vi demonstrerte i denne studien», sa Felix Yanwei Wang.

I fremtiden ønsker teamet å øke hastigheten på prøvetakingsprosessen samtidig som de opprettholder eller forbedrer ytelsen. De ønsker også å teste metoden i nye miljøer for å vurdere robotens tilpasningsevne.

(Kilde: MIT News)