Una nueva investigación permite a los humanos ajustar las acciones de los robots en tiempo real, de forma similar a como le darían retroalimentación a otra persona.

Imagina un robot que te ayuda a lavar los platos. Le pides que recoja un recipiente con jabón del fregadero, pero sus pinzas no lo agarran con precisión.
Con un nuevo marco metodológico desarrollado por investigadores del MIT y NVIDIA, se puede controlar el comportamiento del robot con gestos sencillos. Se puede señalar el recipiente, dibujar una trayectoria en la pantalla o simplemente empujar suavemente el brazo del robot en la dirección correcta.
A diferencia de otros métodos de modificación del comportamiento de robots, esta técnica no requiere que los usuarios recopilen nuevos datos ni vuelvan a entrenar el modelo de aprendizaje automático que controla el robot. En cambio, permite que el robot utilice la retroalimentación humana intuitiva en tiempo real para seleccionar la secuencia de acciones que mejor se adapte a las intenciones del usuario.
Cuando los investigadores probaron este marco metodológico, su tasa de éxito fue un 21% mayor que la de un método alternativo que no utilizaba intervención humana.
En el futuro, este marco metodológico podría facilitar a los usuarios guiar a un robot entrenado en fábrica para realizar diversas tareas domésticas, incluso si el robot nunca ha visto antes el entorno o los objetos de esa casa.
“No podemos esperar que el usuario promedio recopile datos manualmente y ajuste un modelo de red neuronal. Esperarán que el robot funcione desde el primer momento y, si ocurre un error, necesitarán un mecanismo intuitivo para ajustarlo. Este es el desafío que abordamos en esta investigación”, afirmó Felix Yanwei Wang, estudiante de posgrado en Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y autor principal del estudio.
Minimizar las desviaciones
Recientemente, investigadores han utilizado modelos de IA generativa preentrenados para aprender una "política": un conjunto de reglas que los robots siguen para completar una tarea. Estos modelos pueden resolver numerosas tareas complejas.
Durante el entrenamiento, el modelo solo está expuesto a movimientos válidos del robot, por lo que aprende a crear trayectorias apropiadas.
Sin embargo, esto no significa que todas las acciones del robot se ajusten a los deseos del usuario en la realidad. Por ejemplo, un robot podría estar entrenado para recuperar cajas de una estantería sin tirarlas, pero podría no alcanzar una caja en la estantería de alguien si la disposición de la estantería es diferente a la que vio durante el entrenamiento.
Para superar estos errores, los ingenieros normalmente recopilan más datos sobre la nueva tarea y vuelven a entrenar el modelo, un proceso costoso y que consume mucho tiempo y que requiere experiencia en aprendizaje automático.
En lugar de ello, el equipo de investigación del MIT quiere permitir a los usuarios ajustar el comportamiento del robot tan pronto como cometa un error.
Sin embargo, si los humanos interfieren en el proceso de toma de decisiones del robot, podrían provocar inadvertidamente que el modelo generativo elija una acción no válida. El robot podría recuperar la caja que el usuario desea, pero podría tirar libros del estante en el proceso.
"Queremos que los usuarios interactúen con el robot sin cometer tales errores, logrando así un comportamiento más consistente con la intención del usuario, al tiempo que garantizamos la validez y la viabilidad", dijo Felix Yanwei Wang.
Mejorar la capacidad de toma de decisiones
Para garantizar que estas interacciones no provoquen que el robot realice acciones inválidas, el equipo de investigación utilizó un proceso de muestreo especial. Esta técnica ayuda al modelo a seleccionar la acción, entre un conjunto de opciones válidas, que mejor se adapte al objetivo del usuario.
"En lugar de imponer nuestra voluntad al usuario, ayudamos al robot a comprender sus intenciones y permitimos que el proceso de muestreo fluctúe en torno a los comportamientos que ha aprendido", dijo Felix Yanwei Wang.
Gracias a este método, su marco de investigación superó otros métodos en experimentos de simulación, así como en pruebas con brazos robóticos reales en una cocina modelo.
Aunque este método no siempre completa la tarea inmediatamente, ofrece una ventaja significativa a los usuarios: pueden reparar el robot tan pronto como detectan un fallo, en lugar de esperar a que el robot complete la tarea antes de dar nuevas instrucciones.
Además, después de que el usuario empuje suavemente al robot varias veces para guiarlo a recoger el recipiente correcto, este puede recordar esa corrección e integrarla en su proceso de aprendizaje. Como resultado, al día siguiente, el robot puede recoger el recipiente correcto sin necesidad de más instrucciones.
"Pero la clave de esta mejora continua es tener un mecanismo para que los usuarios interactúen con el robot, y eso es exactamente lo que hemos demostrado en esta investigación", dijo Felix Yanwei Wang.
En el futuro, el equipo de investigación busca aumentar la velocidad del proceso de muestreo, manteniendo o mejorando la eficiencia. También quieren probar este método en nuevos entornos para evaluar la adaptabilidad del robot.
(Fuente: MIT News)
[anuncio_2]
Fuente: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






Kommentar (0)