Ny forskning lar mennesker justere robotenes handlinger i sanntid, på samme måte som de ville gitt tilbakemelding til en annen person.

Tenk deg en robot som hjelper deg med å vaske opp. Du ber den om å hente en bolle med såpe fra vasken, men gripehåndtakene griper den ikke akkurat der den trengs.
Med et nytt metodisk rammeverk utviklet av forskere ved MIT og NVIDIA, kan du kontrollere robotens oppførsel med enkle bevegelser. Du kan peke på bollen eller tegne en bane på skjermen, eller bare forsiktig dytte robotens arm i riktig retning.
I motsetning til andre metoder for modifisering av robotatferd, krever ikke denne teknikken at brukerne samler inn nye data og trener maskinlæringsmodellen som styrer roboten på nytt. I stedet lar den roboten bruke intuitiv menneskelig tilbakemelding i sanntid for å velge handlingssekvensen som best samsvarer med brukerens intensjoner.
Da forskere testet dette metodiske rammeverket, var suksessraten 21 % høyere enn en alternativ metode som ikke benyttet menneskelig inngripen.
I fremtiden kan dette metodikkrammeverket gjøre det enklere for brukere å veilede en fabrikkopplært robot til å utføre ulike husholdningsoppgaver, selv om roboten aldri har sett omgivelsene eller gjenstandene i huset før.
«Vi kan ikke forvente at den gjennomsnittlige brukeren manuelt samler inn data og finjusterer en nevral nettverksmodell. De forventer at roboten skal fungere rett ut av esken, og hvis det oppstår en feil, trenger de en intuitiv mekanisme for å justere den. Dette er utfordringen vi har tatt opp i denne forskningen», sa Felix Yanwei Wang, en masterstudent i elektroteknikk og informatikk (EECS) ved MIT og hovedforfatter av studien.
Minimer avvik
Nylig har forskere brukt forhåndstrente generative AI-modeller for å lære en «policy» – et sett med regler som roboter følger for å fullføre en oppgave. Disse modellene kan løse mange komplekse oppgaver.
Under trening blir modellen kun eksponert for gyldige robotbevegelser, slik at den lærer å lage passende baner.
Dette betyr imidlertid ikke at alle handlinger roboten foretar seg vil stemme overens med brukerens ønsker i virkeligheten. For eksempel kan en robot være trent til å hente esker fra en hylle uten å velte dem, men den kan mislykkes i å nå en eske i noens bokhylle hvis bokhylleoppsettet er annerledes enn det den så under treningen.
For å overvinne slike feil samler ingeniører vanligvis inn mer data om den nye oppgaven og trener modellen på nytt, en kostbar og tidkrevende prosess som krever ekspertise innen maskinlæring.
I stedet ønsker forskerteamet ved MIT å la brukerne justere robotens oppførsel så snart den gjør en feil.
Men hvis mennesker forstyrrer robotens beslutningsprosess, kan det utilsiktet føre til at den generative modellen velger en ugyldig handling. Roboten kan hente esken brukeren ønsker, men kan velte bøker i hyllen i prosessen.
«Vi ønsker at brukerne skal samhandle med roboten uten å gjøre slike feil, og dermed oppnå atferd som er mer i samsvar med brukerens intensjon, samtidig som vi sikrer validitet og gjennomførbarhet», sa Felix Yanwei Wang.
Forbedre beslutningstaking
For å sikre at disse interaksjonene ikke fører til at roboten utfører ugyldige handlinger, brukte forskerteamet en spesiell utvalgsprosess. Denne teknikken hjelper modellen med å velge en handling fra et sett med gyldige alternativer som passer best til brukerens mål.
«I stedet for å påtvinge brukeren vår vilje, hjelper vi roboten med å forstå intensjonene deres, og lar samplingsprosessen svinge rundt atferden den har lært», sa Felix Yanwei Wang.
Takket være denne metoden utkonkurrerte forskningsrammeverket deres andre metoder i simuleringseksperimenter samt testing med faktiske robotarmer i et modellkjøkken.
Selv om denne metoden ikke alltid fullfører oppgaven umiddelbart, gir den en betydelig fordel for brukerne: de kan fikse roboten så snart de oppdager en feil, i stedet for å vente på at roboten skal fullføre oppgaven før den gir nye instruksjoner.
Videre, etter at brukeren forsiktig dytter roboten et par ganger for å veilede den til å plukke opp riktig bolle, kan roboten huske den korrigerende handlingen og integrere den i sin fremtidige læringsprosess. Som et resultat kan roboten plukke opp riktig bolle dagen etter uten å trenge ytterligere instruksjoner.
«Men nøkkelen til denne kontinuerlige forbedringen er å ha en mekanisme som gjør at brukerne kan samhandle med roboten, og det er akkurat det vi har demonstrert i denne forskningen», sa Felix Yanwei Wang.
I fremtiden tar forskerteamet sikte på å øke hastigheten på prøvetakingsprosessen, samtidig som effektiviteten opprettholdes eller forbedres. De ønsker også å teste denne metoden i nye miljøer for å vurdere robotens tilpasningsevne.
(Kilde: MIT News)
[annonse_2]
Kilde: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






Kommentar (0)