Nieuw onderzoek maakt het mogelijk voor mensen om de acties van robots in realtime aan te passen, vergelijkbaar met hoe ze feedback aan een ander persoon zouden geven.

Stel je voor dat een robot je helpt met de afwas. Je vraagt hem om een bakje met afwasmiddel uit de gootsteen te halen, maar zijn grijpers pakken het niet helemaal op de juiste plek.
Met een nieuw methodologisch raamwerk, ontwikkeld door onderzoekers van MIT en NVIDIA, kun je het gedrag van de robot besturen met simpele gebaren. Je kunt naar de kom wijzen, een pad op het scherm tekenen of de arm van de robot zachtjes in de juiste richting duwen.
In tegenstelling tot andere methoden voor het aanpassen van robotgedrag, vereist deze techniek niet dat gebruikers nieuwe gegevens verzamelen en het machine learning-model dat de robot bestuurt opnieuw trainen. In plaats daarvan stelt het de robot in staat om realtime, intuïtieve menselijke feedback te gebruiken om de reeks acties te selecteren die het beste aansluit bij de intenties van de gebruiker.
Toen onderzoekers dit methodologische kader testten, bleek het succespercentage 21% hoger te liggen dan bij een alternatieve methode waarbij geen menselijke tussenkomst nodig was.
In de toekomst zou dit methodologische raamwerk het voor gebruikers gemakkelijker kunnen maken om een in de fabriek getrainde robot diverse huishoudelijke taken te laten uitvoeren, zelfs als de robot de omgeving of de objecten in dat huis nog nooit eerder heeft gezien.
"We kunnen niet verwachten dat de gemiddelde gebruiker handmatig gegevens verzamelt en een neuraal netwerkmodel fijn afstelt. Ze verwachten dat de robot direct werkt, en als er een fout optreedt, hebben ze een intuïtief mechanisme nodig om deze aan te passen. Dit is de uitdaging die we in dit onderzoek hebben aangepakt," aldus Felix Yanwei Wang, promovendus Elektrotechniek en Informatica (EECS) aan MIT en hoofdauteur van de studie.
Minimaliseer afwijkingen
Recentelijk hebben onderzoekers gebruikgemaakt van vooraf getrainde generatieve AI-modellen om een "beleid" te leren – een reeks regels die robots volgen om een taak te voltooien. Deze modellen kunnen veel complexe taken oplossen.
Tijdens de training wordt het model alleen blootgesteld aan geldige robotbewegingen, zodat het leert om geschikte trajecten te creëren.
Dit betekent echter niet dat elke actie van de robot in de praktijk overeenkomt met de wensen van de gebruiker. Een robot kan bijvoorbeeld getraind zijn om dozen van een plank te pakken zonder ze om te stoten, maar kan er niet in slagen een doos op iemands boekenplank te pakken als de indeling van de boekenplank anders is dan wat de robot tijdens de training heeft gezien.
Om dergelijke fouten te verhelpen, verzamelen ingenieurs doorgaans meer gegevens over de nieuwe taak en trainen ze het model opnieuw. Dit is een kostbaar en tijdrovend proces dat expertise in machine learning vereist.
Het onderzoeksteam van MIT wil gebruikers juist de mogelijkheid bieden om het gedrag van de robot aan te passen zodra deze een fout maakt.
Als mensen echter ingrijpen in het besluitvormingsproces van de robot, kan dit er onbedoeld toe leiden dat het generatieve model een ongeldige actie kiest. De robot zou bijvoorbeeld de doos kunnen pakken die de gebruiker wil, maar daarbij boeken van de plank omstoten.
"We willen dat gebruikers met de robot communiceren zonder dergelijke fouten te maken, waardoor gedrag ontstaat dat beter aansluit bij de intentie van de gebruiker, terwijl de validiteit en haalbaarheid gewaarborgd blijven," aldus Felix Yanwei Wang.
Verbeter de besluitvormingscapaciteiten
Om ervoor te zorgen dat deze interacties er niet toe leiden dat de robot ongeldige acties uitvoert, gebruikte het onderzoeksteam een speciaal steekproefproces. Deze techniek helpt het model een actie te selecteren uit een reeks geldige opties die het beste aansluit bij het doel van de gebruiker.
"In plaats van onze wil aan de gebruiker op te leggen, helpen we de robot zijn intenties te begrijpen en laten we het bemonsteringsproces fluctueren rond het gedrag dat de robot heeft geleerd," aldus Felix Yanwei Wang.
Dankzij deze methode presteerde hun onderzoeksraamwerk beter dan andere methoden in simulatie-experimenten en bij tests met echte robotarmen in een modelkeuken.
Hoewel deze methode de taak niet altijd direct voltooit, biedt ze gebruikers een aanzienlijk voordeel: ze kunnen de robot repareren zodra ze een storing detecteren, in plaats van te wachten tot de robot de taak heeft voltooid voordat ze nieuwe instructies geven.
Bovendien, nadat de gebruiker de robot een paar keer zachtjes heeft geduwd om hem naar de juiste kom te leiden, kan de robot die corrigerende actie onthouden en integreren in zijn toekomstige leerproces. Daardoor kan de robot de volgende dag de juiste kom oppakken zonder verdere instructie.
"Maar de sleutel tot deze voortdurende verbetering is een mechanisme waarmee gebruikers met de robot kunnen interageren, en dat is precies wat we in dit onderzoek hebben aangetoond," aldus Felix Yanwei Wang.
Het onderzoeksteam streeft er in de toekomst naar om de snelheid van het bemonsteringsproces te verhogen, met behoud van of verbetering van de efficiëntie. Ze willen deze methode ook in nieuwe omgevingen testen om het aanpassingsvermogen van de robot te beoordelen.
(Bron: MIT News)
Bron: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






Reactie (0)