Nieuw onderzoek maakt het voor mensen mogelijk om de handelingen van een robot in real time aan te passen, vergelijkbaar met de manier waarop ze feedback aan een ander persoon zouden geven.
Stel je voor dat een robot je helpt met afwassen. Je vraagt hem om een kom zeep uit de gootsteen te pakken, maar zijn grijper pakt niet precies waar hij moet.
Met een nieuw framework, ontwikkeld door onderzoekers van MIT en NVIDIA, kun je het gedrag van een robot besturen met simpele gebaren. Je kunt bijvoorbeeld naar een kom wijzen, een pad op het scherm tekenen of de arm van de robot simpelweg in de juiste richting duwen.
In tegenstelling tot andere benaderingen om robotgedrag te modificeren, vereist deze techniek niet dat de gebruiker nieuwe gegevens verzamelt en het machine learning-model dat de robot bestuurt, opnieuw traint. In plaats daarvan kan de robot gebruikmaken van realtime, visuele feedback van mensen om de actievolgorde te selecteren die het beste aansluit bij de intentie van de gebruiker.
Toen onderzoekers dit raamwerk testten, bleek het succespercentage 21% hoger te zijn dan bij een alternatieve aanpak die geen gebruikmaakte van menselijke tussenkomst.
In de toekomst zou dit raamwerk het voor een gebruiker eenvoudig kunnen maken om een door de fabriek getrainde robot opdracht te geven om verschillende huishoudelijke taken uit te voeren, zelfs als de robot de omgeving of de objecten in het huis nog nooit eerder heeft gezien.
"We kunnen niet van gewone gebruikers verwachten dat ze data verzamelen en een neuraal netwerkmodel verfijnen. Ze verwachten dat de robot direct uit de doos werkt, en als er iets misgaat, hebben ze een intuïtief mechanisme nodig om het te corrigeren. Dit is de uitdaging die we in dit artikel hebben aangepakt", zegt Felix Yanwei Wang, promovendus aan de faculteit Elektrotechniek en Computerwetenschappen (EECS) van MIT en hoofdauteur van de studie.
Minimaliseer afwijking
Onlangs hebben onderzoekers vooraf getrainde generatieve AI-modellen gebruikt om een 'beleid' te leren – een reeks regels die een robot volgt om een taak te voltooien. Deze modellen kunnen veel complexe taken oplossen.
Tijdens de training wordt het model alleen blootgesteld aan geldige robotbewegingen, zodat het leert om geschikte bewegingstrajecten te genereren.
Dit betekent echter niet dat elke actie die een robot uitvoert, overeenkomt met de werkelijke verwachtingen van de gebruiker. Een robot kan bijvoorbeeld getraind zijn om dozen van een plank te pakken zonder ze om te stoten, maar kan er mogelijk niet in slagen een doos op iemands boekenplank te bereiken als de indeling van de boekenplank anders is dan tijdens de training.
Om dergelijke fouten te verhelpen, verzamelen technici vaak extra gegevens over nieuwe taken en trainen ze het model opnieuw. Dit is een kostbaar en tijdrovend proces waarvoor expertise op het gebied van machine learning vereist is.
In plaats daarvan wil het MIT-team gebruikers de mogelijkheid bieden om het gedrag van de robot aan te passen zodra deze een fout maakt.
Als een mens echter ingrijpt in het besluitvormingsproces van de robot, kan dit ertoe leiden dat het generatieve model per ongeluk een ongeldige actie kiest. De robot kan dan de doos pakken die de mens wil, maar daarbij boeken op de plank omstoten.
"We willen dat gebruikers met de robot interacteren zonder dat ze dergelijke fouten maken. Zo bereiken we gedrag dat beter aansluit bij de intenties van de gebruiker, terwijl de validiteit en haalbaarheid nog steeds gewaarborgd zijn", aldus Felix Yanwei Wang.
Verbeter het besluitvormingsvermogen
Om ervoor te zorgen dat deze interacties er niet toe leiden dat de robot ongeldige acties uitvoert, gebruikt het team een speciale bemonsteringsprocedure. Deze techniek helpt het model om uit een reeks geldige keuzes de actie te kiezen die het beste aansluit bij de doelen van de gebruiker.
"In plaats van de intenties van de gebruiker op te leggen, helpen we de robot zijn intenties te begrijpen, terwijl we het bemonsteringsproces laten fluctueren op basis van het gedrag dat de robot heeft geleerd", aldus Felix Yanwei Wang.
Dankzij deze aanpak presteerde hun onderzoeksraamwerk beter dan andere methoden bij simulatie-experimenten en bij testen met een echte robotarm in een modelkeuken.
Hoewel deze methode de taak niet altijd direct uitvoert, biedt het een groot voordeel voor de gebruiker: hij of zij kan de robot corrigeren zodra er een fout wordt gedetecteerd, in plaats van te wachten tot de robot de taak heeft voltooid en vervolgens nieuwe instructies te geven.
Bovendien kan de robot, nadat de gebruiker de robot een paar keer zachtjes aanraakt om hem te laten weten dat hij de juiste bak moet pakken, deze correctie onthouden en in toekomstige leerprocessen verwerken. Zo kan de robot de volgende dag de juiste bak pakken zonder dat hij opnieuw hoeft te worden aangestuurd.
"Maar de sleutel tot deze voortdurende verbetering is een mechanisme waarmee gebruikers met de robot kunnen interacteren, en dat is precies wat we in deze studie hebben aangetoond", aldus Felix Yanwei Wang.
In de toekomst wil het team het bemonsteringsproces versnellen en tegelijkertijd de prestaties behouden of verbeteren. Ze willen de methode ook in nieuwe omgevingen testen om de aanpasbaarheid van de robot te beoordelen.
(Bron: MIT News)
Bron: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Reactie (0)