새로운 연구를 통해 인간은 마치 다른 사람에게 피드백을 주는 것처럼 로봇의 행동을 실시간으로 조정할 수 있게 되었습니다.

로봇이 설거지를 도와준다고 상상해 보세요. 싱크대에서 비누 그릇을 가져오라고 했는데, 로봇의 집게가 정확히 원하는 위치에 비누를 잡지 못합니다.
MIT와 NVIDIA 연구진이 개발한 새로운 방법론 프레임워크를 사용하면 간단한 동작으로 로봇의 움직임을 제어할 수 있습니다. 그릇을 가리키거나 화면에 경로를 그리거나, 로봇 팔을 원하는 방향으로 살짝 밀기만 하면 됩니다.
다른 로봇 행동 수정 방법과 달리, 이 기술은 사용자가 새로운 데이터를 수집하고 로봇을 제어하는 머신러닝 모델을 재학습시킬 필요가 없습니다. 대신, 로봇이 실시간으로 직관적인 인간의 피드백을 활용하여 사용자의 의도에 가장 잘 부합하는 일련의 행동을 선택할 수 있도록 합니다.
연구자들이 이 방법론적 틀을 시험했을 때, 인간의 개입을 활용하지 않는 다른 방법보다 성공률이 21% 더 높았습니다.
향후 이 방법론 프레임워크를 통해 사용자는 공장에서 훈련된 로봇이 해당 집의 환경이나 물건을 이전에 본 적이 없더라도 다양한 가정 작업을 수행하도록 쉽게 안내할 수 있을 것입니다.
"일반 사용자가 직접 데이터를 수집하고 신경망 모델을 미세 조정할 것이라고 기대할 수는 없습니다. 사용자는 로봇이 바로 작동하기를 기대하고, 오류가 발생할 경우 직관적인 방식으로 수정할 수 있기를 바랍니다. 이것이 바로 우리가 이번 연구에서 다룬 과제입니다."라고 MIT 전기공학 및 컴퓨터과학(EECS) 대학원생이자 이번 연구의 주저자인 펠릭스 얀웨이 왕은 말했습니다.
편차를 최소화합니다
최근 연구자들은 사전 학습된 생성형 인공지능 모델을 사용하여 로봇이 작업을 완료하기 위해 따르는 규칙 집합인 "정책"을 학습시키고 있습니다. 이러한 모델은 많은 복잡한 작업을 해결할 수 있습니다.
훈련 과정에서 모델은 유효한 로봇 움직임에만 노출되므로 적절한 궤적을 생성하는 방법을 학습합니다.
하지만 그렇다고 해서 로봇의 모든 행동이 현실에서 사용자의 의도와 정확히 일치하는 것은 아닙니다. 예를 들어, 로봇은 선반에서 상자를 넘어뜨리지 않고 꺼내도록 훈련받았을 수 있지만, 책장의 배치가 훈련 당시와 다르면 책장에 있는 상자에 손이 닿지 않을 수도 있습니다.
이러한 오류를 극복하기 위해 엔지니어들은 일반적으로 새로운 작업에 대한 더 많은 데이터를 수집하고 모델을 재학습시키는데, 이는 머신러닝 전문 지식을 필요로 하는 비용이 많이 들고 시간이 오래 걸리는 과정입니다.
대신 MIT 연구팀은 사용자가 로봇이 실수를 저지르는 즉시 로봇의 행동을 조정할 수 있도록 하는 것을 목표로 하고 있습니다.
하지만 사람이 로봇의 의사결정 과정에 개입하면 의도치 않게 생성 모델이 잘못된 행동을 선택할 수 있습니다. 예를 들어 로봇이 사용자가 원하는 상자를 가져오지만 그 과정에서 책꽂이의 책을 넘어뜨릴 수도 있습니다.
"저희는 사용자들이 그러한 실수를 저지르지 않고 로봇과 상호작용할 수 있도록 하여, 사용자의 의도에 더욱 부합하는 행동을 구현하는 동시에 타당성과 실현 가능성을 보장하고자 합니다."라고 펠릭스 얀웨이 왕은 말했습니다.
의사결정 능력 향상
이러한 상호작용으로 인해 로봇이 잘못된 동작을 수행하지 않도록 하기 위해 연구팀은 특별한 샘플링 프로세스를 사용했습니다. 이 기술은 모델이 사용자의 목표에 가장 적합한 동작을 유효한 옵션 집합 중에서 선택하도록 도와줍니다.
"사용자에게 우리의 의지를 강요하는 대신, 로봇이 사용자의 의도를 이해하도록 돕고, 로봇이 학습한 행동을 중심으로 샘플링 과정이 변동하도록 합니다."라고 펠릭스 얀웨이 왕은 말했습니다.
이러한 방법 덕분에 그들의 연구 프레임워크는 시뮬레이션 실험은 물론 모형 주방에서 실제 로봇 팔을 사용한 테스트에서도 다른 방법들보다 뛰어난 성능을 보였습니다.
이 방법은 항상 작업을 즉시 완료하는 것은 아니지만 사용자에게 상당한 이점을 제공합니다. 즉, 로봇이 작업을 완료할 때까지 기다렸다가 새로운 지시를 내리는 대신, 오류를 감지하는 즉시 로봇을 수정할 수 있습니다.
또한, 사용자가 로봇을 몇 번 부드럽게 밀어 올바른 그릇을 집도록 유도하면, 로봇은 그 교정 동작을 기억하고 향후 학습 과정에 통합할 수 있습니다. 결과적으로, 다음 날 로봇은 추가적인 지시 없이도 올바른 그릇을 집을 수 있습니다.
"하지만 이러한 지속적인 개선의 핵심은 사용자가 로봇과 상호 작용할 수 있는 메커니즘을 갖추는 것이며, 이것이 바로 우리가 이번 연구에서 입증한 것입니다."라고 펠릭스 얀웨이 왕은 말했습니다.
향후 연구팀은 효율성을 유지하거나 향상시키면서 샘플링 과정의 속도를 높이는 것을 목표로 하고 있습니다. 또한 로봇의 적응성을 평가하기 위해 새로운 환경에서 이 방법을 테스트하고자 합니다.
(출처: MIT 뉴스)
[광고_2]
출처: https://vietnamnet.vn/ung-dung-ai-tao-sinh-giup-robot-tuong-tac-thong-minh-hon-2381531.html






댓글 (0)