Una nueva investigación permite a los humanos ajustar las acciones de un robot en tiempo real, de forma similar a como le darían retroalimentación a otra persona.
Imagina que un robot te ayuda a lavar los platos. Le pides que agarre un recipiente con jabón del fregadero, pero su pinza no agarra justo donde debe.
Con un nuevo marco desarrollado por investigadores del MIT y NVIDIA, se puede controlar el comportamiento de un robot con gestos sencillos. Se puede señalar un cuenco, dibujar una trayectoria en la pantalla o simplemente empujar el brazo del robot en la dirección correcta.
A diferencia de otros enfoques para modificar el comportamiento de los robots, esta técnica no requiere que el usuario recopile nuevos datos ni vuelva a entrenar el modelo de aprendizaje automático que lo controla. En cambio, permite que el robot utilice la retroalimentación humana visual en tiempo real para seleccionar la secuencia de acciones que mejor se adapte a la intención del usuario.
Cuando los investigadores probaron este marco, su tasa de éxito fue un 21% mayor que la de un enfoque alternativo que no utilizó intervención humana.
En el futuro, este marco podría permitir que un usuario pueda instruir fácilmente a un robot entrenado en fábrica para que realice diversas tareas domésticas, incluso si el robot nunca ha visto antes el entorno ni los objetos de esa casa.
“No podemos esperar que los usuarios comunes recopilen datos y ajusten un modelo de red neuronal. Esperan que el robot funcione de inmediato y, si algo falla, necesitan un mecanismo intuitivo para corregirlo. Este es el desafío que abordamos en este artículo”, afirma Felix Yanwei Wang, estudiante de posgrado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y autor principal del estudio.
Minimizar la desviación
Recientemente, investigadores han utilizado modelos de IA generativa preentrenados para aprender una "política": un conjunto de reglas que un robot sigue para completar una tarea. Estos modelos pueden resolver numerosas tareas complejas.
Durante el entrenamiento, el modelo se expone únicamente a movimientos válidos del robot, por lo que aprende a generar trayectorias de movimiento adecuadas.
Sin embargo, esto no significa que todas las acciones que realiza un robot coincidan con las expectativas reales del usuario. Por ejemplo, un robot puede estar entrenado para recoger cajas de un estante sin tirarlas, pero podría no alcanzar una caja en el estante de alguien si la disposición del estante es diferente a la que vio durante el entrenamiento.
Para corregir estos errores, los ingenieros a menudo recopilan datos adicionales sobre nuevas tareas y vuelven a entrenar el modelo, un proceso costoso y que consume mucho tiempo y que requiere experiencia en aprendizaje automático.
En cambio, el equipo del MIT quiere permitir a los usuarios ajustar el comportamiento del robot tan pronto como cometa un error.
Sin embargo, si un humano interfiere en la toma de decisiones del robot, podría provocar accidentalmente que el modelo generativo elija una acción inválida. El robot podría conseguir la caja que el humano quiere, pero podría tirar libros del estante en el proceso.
“Queremos que los usuarios interactúen con el robot sin cometer tales errores, logrando así un comportamiento que se ajuste mejor a las intenciones del usuario, al tiempo que garantizamos la validez y la viabilidad”, dijo Felix Yanwei Wang.
Mejorar la capacidad de toma de decisiones
Para garantizar que estas interacciones no provoquen que el robot realice acciones inválidas, el equipo utiliza un procedimiento de muestreo especial. Esta técnica ayuda al modelo a elegir, entre un conjunto de opciones válidas, la acción que mejor se adapta a los objetivos del usuario.
“En lugar de imponer las intenciones del usuario, ayudamos al robot a comprender sus intenciones, mientras permitimos que el proceso de muestreo fluctúe en torno a los comportamientos que ha aprendido”, dijo Felix Yanwei Wang.
Gracias a este enfoque, su marco de investigación superó otros métodos en experimentos de simulación, así como en pruebas con un brazo robótico real en una cocina modelo.
Si bien este método no siempre completa la tarea de inmediato, tiene una gran ventaja para el usuario: puede corregir el robot tan pronto como detecta un error, en lugar de esperar a que el robot complete la tarea y luego darle nuevas instrucciones.
Además, después de que el usuario empuja suavemente al robot unas cuantas veces para guiarlo a tomar el recipiente correcto, el robot puede recordar esa corrección e incorporarla al aprendizaje futuro, por lo que al día siguiente el robot puede tomar el recipiente correcto sin necesidad de que lo guíen nuevamente.
"Pero la clave de esta mejora continua es tener un mecanismo para que los usuarios interactúen con el robot, y eso es exactamente lo que demostramos en este estudio", dijo Felix Yanwei Wang.
En el futuro, el equipo busca acelerar el proceso de muestreo, manteniendo o mejorando su rendimiento. También quieren probar el método en nuevos entornos para evaluar la adaptabilidad del robot.
(Fuente: MIT News)
[anuncio_2]
Fuente: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html
Kommentar (0)