foto 19.jpg
Felix Yanwei Wang - doctorand în Inginerie Electrică și Informatică (EECS) MIT. Sursa: MIT News

Imaginează-ți că un robot te ajută să speli vasele. Îi ceri să ia un bol cu ​​săpun din chiuvetă, dar dispozitivul său de prindere nu apucă exact unde trebuie.

Cu un nou cadru de lucru dezvoltat de cercetătorii de la MIT și NVIDIA, puteți controla comportamentul unui robot cu gesturi simple. Puteți indica un bol sau desena o cale pe ecran sau pur și simplu puteți împinge brațul robotului în direcția corectă.

Spre deosebire de alte abordări de modificare a comportamentului robotului, această tehnică nu necesită ca utilizatorul să colecteze date noi și să reantreneze modelul de învățare automată care controlează robotul. În schimb, permite robotului să utilizeze feedback vizual uman în timp real pentru a selecta secvența de acțiuni care corespunde cel mai bine intenției utilizatorului.

Când cercetătorii au testat acest cadru, rata sa de succes a fost cu 21% mai mare decât cea a unei abordări alternative care nu a utilizat intervenția umană.

În viitor, acest cadru ar putea facilita instruirea de către un utilizator a unui robot antrenat în fabrică pentru a îndeplini diverse sarcini casnice, chiar dacă robotul nu a mai văzut niciodată mediul sau obiectele din acea casă.

„Nu ne putem aștepta ca utilizatorii obișnuiți să colecteze date și să ajusteze fin un model de rețea neuronală. Ei se așteaptă ca robotul să funcționeze imediat după deschidere, iar dacă ceva nu merge bine, au nevoie de un mecanism intuitiv pentru a corecta problema. Aceasta este provocarea pe care am abordat-o în această lucrare”, spune Felix Yanwei Wang, student la masterat în cadrul departamentului de Inginerie Electrică și Informatică (EECS) de la MIT și autorul principal al studiului.

Minimizează abaterea

Recent, cercetătorii au folosit modele de inteligență artificială generativă pre-antrenate pentru a învăța o „politică” - un set de reguli pe care un robot le urmează pentru a finaliza o sarcină. Aceste modele pot rezolva multe sarcini complexe.

În timpul antrenamentului, modelul este expus doar mișcărilor valide ale robotului, astfel încât învață să genereze traiectorii de mișcare adecvate.

Totuși, aceasta nu înseamnă că fiecare acțiune pe care o întreprinde un robot va corespunde așteptărilor reale ale utilizatorului. De exemplu, un robot poate fi antrenat să ridice cutii de pe un raft fără să le răstoarne, dar este posibil să nu ajungă la o cutie de pe raftul cuiva dacă aspectul raftului este diferit de cel pe care l-a văzut în timpul antrenamentului.

Pentru a remedia astfel de erori, inginerii colectează adesea date suplimentare despre sarcini noi și reantrenează modelul, un proces costisitor și consumator de timp care necesită expertiză în învățarea automată.

În schimb, echipa MIT dorește să permită utilizatorilor să ajusteze comportamentul robotului imediat ce acesta face o greșeală.

Totuși, dacă o ființă umană interferează cu procesul decizional al robotului, acest lucru poate determina accidental modelul generativ să aleagă o acțiune invalidă. Robotul poate obține cutia dorită de omul respectiv, dar poate răsturna cărțile de pe raft în acest proces.

„Dorim ca utilizatorii să interacționeze cu robotul fără a face astfel de erori, obținând astfel un comportament care să corespundă mai bine intențiilor utilizatorului, asigurând în același timp validitatea și fezabilitatea”, a declarat Felix Yanwei Wang.

Îmbunătățiți capacitatea de luare a deciziilor

Pentru a se asigura că aceste interacțiuni nu determină robotul să întreprindă acțiuni nevalide, echipa folosește o procedură specială de eșantionare. Această tehnică ajută modelul să aleagă acțiunea dintr-un set de opțiuni valide care corespunde cel mai bine obiectivelor utilizatorului.

„În loc să impunem intențiile utilizatorului, ajutăm robotul să înțeleagă intențiile acestuia, permițând în același timp procesului de eșantionare să fluctueze în funcție de comportamentele pe care le-a învățat”, a spus Felix Yanwei Wang.

Datorită acestei abordări, cadrul lor de cercetare a depășit alte metode în experimentele de simulare, precum și în testarea cu un braț robotic real într-o bucătărie model.

Deși această metodă nu finalizează întotdeauna sarcina imediat, are un mare avantaj pentru utilizator: acesta poate corecta robotul imediat ce detectează o eroare, în loc să aștepte ca robotul să finalizeze sarcina și apoi să dea noi instrucțiuni.

În plus, după ce utilizatorul atingă ușor robotul de câteva ori pentru a-l ghida să ridice bolul corect, robotul își poate aminti acea corecție și o poate încorpora în învățarea viitoare, astfel încât a doua zi robotul poate ridica bolul corect fără a fi nevoie să fie ghidat din nou.

„Însă cheia acestei îmbunătățiri continue este de a avea un mecanism prin care utilizatorii să interacționeze cu robotul, iar exact asta am demonstrat în acest studiu”, a declarat Felix Yanwei Wang.

În viitor, echipa dorește să accelereze procesul de eșantionare, menținând sau îmbunătățind în același timp performanța. De asemenea, doresc să testeze metoda în medii noi pentru a evalua adaptabilitatea robotului.

(Sursa: MIT News)