photo 19.jpg
Felix Yanwei Wang – Doctorant en génie électrique et informatique (EECS), MIT. Source : MIT News

Imaginez un robot qui vous aide à faire la vaisselle. Vous lui demandez de prendre un bol de savon dans l'évier, mais sa pince ne saisit pas exactement où elle doit aller.

Grâce à un nouveau framework développé par des chercheurs du MIT et de NVIDIA, il est possible de contrôler le comportement d'un robot par de simples gestes. Vous pouvez pointer un bol, dessiner un chemin à l'écran ou simplement pousser le bras du robot dans la bonne direction.

Contrairement à d'autres approches de modification du comportement des robots, cette technique ne nécessite pas que l'utilisateur collecte de nouvelles données ni réentraîne le modèle d'apprentissage automatique qui contrôle le robot. Elle permet au robot d'utiliser un retour visuel humain en temps réel pour sélectionner la séquence d'actions la plus adaptée à l'intention de l'utilisateur.

Lorsque les chercheurs ont testé ce cadre, son taux de réussite était 21 % supérieur à celui d’une approche alternative qui n’utilisait pas d’intervention humaine.

À l’avenir, ce cadre pourrait permettre à un utilisateur d’ordonner facilement à un robot formé en usine d’effectuer diverses tâches ménagères, même si le robot n’a jamais vu l’environnement ou les objets de cette maison auparavant.

« On ne peut pas s'attendre à ce que les utilisateurs ordinaires collectent des données et peaufinent un modèle de réseau neuronal. Ils s'attendent à ce que le robot fonctionne immédiatement et, en cas de problème, à ce qu'il dispose d'un mécanisme intuitif pour le corriger. C'est le défi que nous avons relevé dans cette étude », explique Felix Yanwei Wang, étudiant diplômé du département de génie électrique et informatique (EECS) du MIT et auteur principal de l'étude.

Minimiser les écarts

Récemment, des chercheurs ont utilisé des modèles d'IA générative pré-entraînés pour apprendre une « politique » – un ensemble de règles qu'un robot suit pour accomplir une tâche. Ces modèles peuvent résoudre de nombreuses tâches complexes.

Pendant la formation, le modèle est exposé uniquement à des mouvements de robot valides, il apprend donc à générer des trajectoires de mouvement appropriées.

Cependant, cela ne signifie pas que chaque action d'un robot correspondra aux attentes réelles de l'utilisateur. Par exemple, un robot peut être entraîné à ramasser des cartons sur une étagère sans les renverser, mais peut ne pas parvenir à atteindre un carton sur une étagère si la disposition de celle-ci est différente de celle observée lors de l'entraînement.

Pour corriger de telles erreurs, les ingénieurs collectent souvent des données supplémentaires sur de nouvelles tâches et recyclent le modèle, un processus coûteux et long qui nécessite une expertise en apprentissage automatique.

Au lieu de cela, l'équipe du MIT souhaite permettre aux utilisateurs d'ajuster le comportement du robot dès qu'il commet une erreur.

Cependant, si un humain interfère avec le processus décisionnel du robot, le modèle génératif peut accidentellement choisir une action invalide. Le robot peut obtenir la boîte souhaitée par l'humain, mais risque de renverser des livres sur l'étagère.

« Nous voulons que les utilisateurs interagissent avec le robot sans commettre de telles erreurs, obtenant ainsi un comportement qui correspond mieux aux intentions de l'utilisateur, tout en garantissant la validité et la faisabilité », a déclaré Felix Yanwei Wang.

Améliorer la capacité de prise de décision

Pour garantir que ces interactions n'entraînent pas d'actions non valides du robot, l'équipe utilise une procédure d'échantillonnage spécifique. Cette technique permet au modèle de choisir, parmi un ensemble de choix valides, l'action la plus adaptée aux objectifs de l'utilisateur.

« Au lieu d'imposer les intentions de l'utilisateur, nous aidons le robot à comprendre ses intentions, tout en laissant le processus d'échantillonnage fluctuer autour des comportements qu'il a appris », a déclaré Felix Yanwei Wang.

Grâce à cette approche, leur cadre de recherche a surpassé d’autres méthodes dans des expériences de simulation ainsi que dans des tests avec un véritable bras robotique dans une cuisine modèle.

Bien que cette méthode ne termine pas toujours la tâche immédiatement, elle présente un gros avantage pour l'utilisateur : il peut corriger le robot dès qu'il détecte une erreur, au lieu d'attendre que le robot termine la tâche et de donner ensuite de nouvelles instructions.

De plus, après que l'utilisateur ait doucement poussé le robot plusieurs fois pour le guider vers le bon bol, le robot peut se souvenir de cette correction et l'intégrer dans l'apprentissage futur, de sorte que le lendemain, le robot peut ramasser le bon bol sans avoir besoin d'être guidé à nouveau.

« Mais la clé de cette amélioration continue est d’avoir un mécanisme permettant aux utilisateurs d’interagir avec le robot, et c’est exactement ce que nous avons démontré dans cette étude », a déclaré Felix Yanwei Wang.

À l'avenir, l'équipe souhaite accélérer le processus d'échantillonnage tout en maintenant, voire en améliorant, les performances. Elle souhaite également tester la méthode dans de nouveaux environnements afin d'évaluer l'adaptabilité du robot.

(Source : MIT News)