imagem bài 19.jpg
Felix Yanwei Wang - estudante de pós-graduação em Engenharia Elétrica e Ciência da Computação (EECS) no MIT. Fonte: MIT News

Imagine um robô ajudando você a lavar a louça. Você pede para ele pegar uma tigela de sabão na pia, mas suas garras não conseguem posicioná-la corretamente.

Com uma nova estrutura metodológica desenvolvida por pesquisadores do MIT e da NVIDIA, você pode controlar o comportamento do robô com gestos simples. Você pode apontar para a tigela, desenhar um caminho na tela ou simplesmente empurrar suavemente o braço do robô na direção desejada.

Diferentemente de outros métodos de modificação de comportamento robótico, essa técnica não exige que os usuários coletem novos dados e retreinem o modelo de aprendizado de máquina que controla o robô. Em vez disso, permite que o robô utilize feedback humano intuitivo em tempo real para selecionar a sequência de ações que melhor se alinhe às intenções do usuário.

Quando os pesquisadores testaram essa estrutura metodológica, sua taxa de sucesso foi 21% maior do que um método alternativo que não utilizava intervenção humana.

No futuro, essa estrutura metodológica poderá facilitar aos usuários a orientação de um robô treinado em fábrica para realizar diversas tarefas domésticas, mesmo que o robô nunca tenha visto o ambiente ou os objetos daquela casa antes.

“Não podemos esperar que o usuário médio colete dados manualmente e ajuste um modelo de rede neural. Ele espera que o robô funcione perfeitamente assim que sair da caixa e, se ocorrer um erro, precisa de um mecanismo intuitivo para corrigi-lo. Esse é o desafio que abordamos nesta pesquisa”, disse Felix Yanwei Wang, estudante de pós-graduação em Engenharia Elétrica e Ciência da Computação (EECS) no MIT e principal autor do estudo.

Minimizar desvios

Recentemente, pesquisadores têm usado modelos generativos de IA pré-treinados para aprender uma "política" — um conjunto de regras que os robôs seguem para concluir uma tarefa. Esses modelos podem resolver muitas tarefas complexas.

Durante o treinamento, o modelo é exposto apenas a movimentos válidos do robô, aprendendo assim a criar trajetórias apropriadas.

No entanto, isso não significa que todas as ações do robô corresponderão aos desejos do usuário na realidade. Por exemplo, um robô pode ser treinado para pegar caixas de uma prateleira sem derrubá-las, mas pode não conseguir alcançar uma caixa na estante de alguém se a disposição dos livros for diferente daquela que ele viu durante o treinamento.

Para superar esses erros, os engenheiros normalmente coletam mais dados sobre a nova tarefa e treinam o modelo novamente, um processo caro e demorado que exige conhecimento especializado em aprendizado de máquina.

Em vez disso, a equipe de pesquisa do MIT quer permitir que os usuários ajustem o comportamento do robô assim que ele cometer um erro.

No entanto, se os humanos interferirem no processo de tomada de decisão do robô, isso pode, inadvertidamente, levar o modelo generativo a escolher uma ação inválida. O robô pode pegar a caixa que o usuário deseja, mas pode derrubar livros na prateleira durante o processo.

"Queremos que os usuários interajam com o robô sem cometer esses erros, alcançando assim um comportamento mais consistente com a intenção do usuário, ao mesmo tempo que garantimos a validade e a viabilidade", disse Felix Yanwei Wang.

Aprimorar as capacidades de tomada de decisão

Para garantir que essas interações não levem o robô a executar ações inválidas, a equipe de pesquisa utilizou um processo de amostragem especial. Essa técnica ajuda o modelo a selecionar, dentre um conjunto de opções válidas, aquela que melhor se adequa ao objetivo do usuário.

"Em vez de impor nossa vontade ao usuário, ajudamos o robô a entender suas intenções e permitimos que o processo de amostragem varie de acordo com os comportamentos que ele aprendeu", disse Felix Yanwei Wang.

Graças a esse método, sua estrutura de pesquisa superou outros métodos em experimentos de simulação, bem como em testes com braços robóticos reais em uma cozinha modelo.

Embora esse método nem sempre conclua a tarefa imediatamente, oferece uma vantagem significativa aos usuários: eles podem consertar o robô assim que detectarem uma falha, em vez de esperar que o robô conclua a tarefa antes de dar novas instruções.

Além disso, depois que o usuário empurra o robô suavemente algumas vezes para guiá-lo a pegar a tigela correta, o robô consegue memorizar essa ação corretiva e integrá-la ao seu processo de aprendizagem futuro. Como resultado, no dia seguinte, o robô consegue pegar a tigela correta sem precisar de novas instruções.

"Mas a chave para essa melhoria contínua é ter um mecanismo para que os usuários interajam com o robô, e é exatamente isso que demonstramos nesta pesquisa", disse Felix Yanwei Wang.

No futuro, a equipe de pesquisa pretende aumentar a velocidade do processo de amostragem, mantendo ou melhorando a eficiência. Eles também querem testar esse método em novos ambientes para avaliar a adaptabilidade do robô.

(Fonte: MIT News)