foto 19.jpg
Felix Yanwei Wang - Doutorando em Engenharia Elétrica e Ciência da Computação (EECS) no MIT. Fonte: MIT News

Imagine um robô ajudando você a lavar a louça. Você pede para ele pegar uma tigela de sabão da pia, mas a garra não pega exatamente onde precisa.

Com uma nova estrutura desenvolvida por pesquisadores do MIT e da NVIDIA, você pode controlar o comportamento de um robô com gestos simples. Você pode apontar para uma tigela, desenhar um caminho na tela ou simplesmente empurrar o braço do robô na direção correta.

Ao contrário de outras abordagens para modificar o comportamento do robô, esta técnica não exige que o usuário colete novos dados e retreine o modelo de aprendizado de máquina que controla o robô. Em vez disso, permite que o robô utilize feedback humano visual em tempo real para selecionar a sequência de ações que melhor corresponde à intenção do usuário.

Quando os pesquisadores testaram essa estrutura, sua taxa de sucesso foi 21% maior do que uma abordagem alternativa que não utilizou intervenção humana.

No futuro, essa estrutura poderá facilitar para um usuário instruir um robô treinado na fábrica a executar diversas tarefas domésticas, mesmo que o robô nunca tenha visto o ambiente ou os objetos daquela casa antes.

“Não podemos esperar que usuários comuns coletem dados e ajustem um modelo de rede neural. Eles esperam que o robô funcione imediatamente e, se algo der errado, precisam de um mecanismo intuitivo para corrigir. Esse é o desafio que abordamos neste artigo”, afirma Felix Yanwei Wang, aluno de pós-graduação do departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT e principal autor do estudo.

Minimizar o desvio

Recentemente, pesquisadores usaram modelos de IA generativa pré-treinados para aprender uma "política" — um conjunto de regras que um robô segue para concluir uma tarefa. Esses modelos podem resolver muitas tarefas complexas.

Durante o treinamento, o modelo é exposto apenas a movimentos válidos do robô, para que ele aprenda a gerar trajetórias de movimento apropriadas.

No entanto, isso não significa que todas as ações de um robô corresponderão às expectativas reais do usuário. Por exemplo, um robô pode ser treinado para pegar caixas de uma prateleira sem derrubá-las, mas pode não conseguir alcançar uma caixa na estante de alguém se o layout da estante for diferente do que ele viu durante o treinamento.

Para corrigir esses erros, os engenheiros geralmente coletam dados adicionais sobre novas tarefas e retreinam o modelo, um processo caro e demorado que exige experiência em aprendizado de máquina.

Em vez disso, a equipe do MIT quer permitir que os usuários ajustem o comportamento do robô assim que ele cometer um erro.

No entanto, se um humano interferir no processo de tomada de decisão do robô, isso pode acidentalmente fazer com que o modelo generativo escolha uma ação inválida. O robô pode obter a caixa que o humano deseja, mas pode derrubar livros na prateleira no processo.

“Queremos que os usuários interajam com o robô sem cometer tais erros, alcançando assim um comportamento que corresponda melhor às intenções do usuário, ao mesmo tempo em que garantimos validade e viabilidade”, disse Felix Yanwei Wang.

Melhore a capacidade de tomada de decisão

Para garantir que essas interações não levem o robô a realizar ações inválidas, a equipe utiliza um procedimento de amostragem especial. Essa técnica ajuda o modelo a escolher, entre um conjunto de opções válidas, a ação que melhor corresponde aos objetivos do usuário.

“Em vez de impor as intenções do usuário, ajudamos o robô a entender suas intenções, enquanto deixamos o processo de amostragem flutuar em torno dos comportamentos que ele aprendeu”, disse Felix Yanwei Wang.

Graças a essa abordagem, sua estrutura de pesquisa superou outros métodos em experimentos de simulação, bem como em testes com um braço robótico real em uma cozinha modelo.

Embora esse método nem sempre conclua a tarefa imediatamente, ele tem uma grande vantagem para o usuário: ele pode corrigir o robô assim que detectar um erro, em vez de esperar que o robô conclua a tarefa e então dar novas instruções.

Além disso, depois que o usuário cutuca suavemente o robô algumas vezes para guiá-lo a pegar a tigela correta, o robô pode se lembrar dessa correção e incorporá-la ao aprendizado futuro, para que no dia seguinte o robô possa pegar a tigela correta sem precisar ser guiado novamente.

“Mas a chave para essa melhoria contínua é ter um mecanismo para os usuários interagirem com o robô, e é exatamente isso que demonstramos neste estudo”, disse Felix Yanwei Wang.

No futuro, a equipe quer acelerar o processo de amostragem, mantendo ou melhorando o desempenho. Eles também querem testar o método em novos ambientes para avaliar a adaptabilidade do robô.

(Fonte: MIT News)