사진 19.jpg
펠릭스 얀웨이 왕 - MIT 전기공학 및 컴퓨터 과학 (EECS) 박사과정 학생. 출처: MIT 뉴스

로봇이 설거지를 돕는다고 상상해 보세요. 싱크대에서 비누 한 그릇을 가져오라고 했는데, 로봇의 집게가 원하는 곳을 정확히 잡지 못합니다.

MIT와 NVIDIA 연구진이 개발한 새로운 프레임워크를 사용하면 간단한 제스처로 로봇의 동작을 제어할 수 있습니다. 그릇을 가리키거나 화면에 경로를 그리거나, 로봇 팔을 원하는 방향으로 살짝 밀어주면 됩니다.

로봇 행동을 수정하는 다른 접근 방식과 달리, 이 기술은 사용자가 새로운 데이터를 수집하고 로봇을 제어하는 ​​머신러닝 모델을 재학습시킬 필요가 없습니다. 대신, 로봇이 실시간으로 시각적인 인간 피드백을 활용하여 사용자의 의도에 가장 적합한 동작 시퀀스를 선택할 수 있도록 합니다.

연구자들이 이 프레임워크를 테스트했을 때, 인간의 개입을 활용하지 않는 대체 접근 방식보다 성공률이 21% 더 높았습니다.

미래에는 이 프레임워크를 통해 사용자가 공장에서 훈련된 로봇에게 집안의 다양한 작업을 지시하는 것이 쉬워질 수 있으며, 로봇이 이전에 집안 환경이나 물건을 본 적이 없더라도 마찬가지입니다.

"일반 사용자가 데이터를 수집하고 신경망 모델을 미세 조정할 것이라고 기대할 수는 없습니다. 일반 사용자는 로봇이 바로 작동하기를 기대하며, 문제가 발생하면 이를 해결할 수 있는 직관적인 메커니즘이 필요합니다. 이것이 바로 이 논문에서 해결하고자 하는 과제입니다."라고 MIT 전기공학 및 컴퓨터과학(EECS) 학과 대학원생이자 본 연구의 주저자인 펠릭스 얀웨이 왕은 말합니다.

편차를 최소화하다

최근 연구자들은 사전 훈련된 생성 AI 모델을 사용하여 로봇이 작업을 완료하기 위해 따르는 일련의 규칙인 "정책"을 학습했습니다. 이러한 모델은 여러 복잡한 작업을 해결할 수 있습니다.

훈련하는 동안 모델은 유효한 로봇 동작에만 노출되므로 적절한 동작 궤적을 생성하는 법을 배웁니다.

하지만 이것이 로봇이 취하는 모든 행동이 사용자의 실제 기대치와 일치한다는 것을 의미하지는 않습니다. 예를 들어, 로봇은 선반에서 상자를 넘어뜨리지 않고 집어 올리도록 훈련받았지만, 책장의 레이아웃이 훈련 당시 본 것과 다르면 누군가의 책장에 있는 상자에 닿지 못할 수도 있습니다.

이러한 오류를 수정하기 위해 엔지니어는 종종 새로운 작업에 대한 추가 데이터를 수집하고 모델을 다시 학습시키는데, 이는 머신 러닝 전문 지식이 필요하고 비용과 시간이 많이 소요되는 과정입니다.

그 대신 MIT 팀은 로봇이 실수를 하면 사용자가 즉시 로봇의 행동을 조정할 수 있도록 허용하려고 합니다.

그러나 사람이 로봇의 의사 결정 과정에 개입하면, 생성 모델이 의도치 않게 잘못된 행동을 선택하게 될 수 있습니다. 로봇은 사람이 원하는 상자를 얻을 수도 있지만, 그 과정에서 책꽂이에 있는 책을 넘어뜨릴 수도 있습니다.

펠릭스 얀웨이 왕은 "사용자가 이러한 오류 없이 로봇과 상호 작용하여 사용자의 의도에 더 잘 맞는 행동을 달성하는 동시에 유효성과 실행 가능성을 보장하고자 합니다."라고 말했습니다.

의사결정 능력 강화

이러한 상호작용으로 인해 로봇이 잘못된 행동을 하지 않도록 하기 위해 연구팀은 특별한 샘플링 절차를 사용합니다. 이 기법은 모델이 일련의 유효한 선택지 중에서 사용자의 목표에 가장 적합한 행동을 선택하는 데 도움을 줍니다.

펠릭스 얀웨이 왕은 "사용자의 의도를 강요하는 대신, 로봇이 사용자의 의도를 이해하도록 돕고, 샘플링 프로세스가 학습한 행동에 따라 변동하도록 했습니다."라고 말했습니다.

이러한 접근 방식 덕분에 그들의 연구 프레임워크는 모델 주방에서 실제 로봇 팔을 사용한 테스트뿐만 아니라 시뮬레이션 실험에서도 다른 방법보다 우수한 성과를 보였습니다.

이 방법은 항상 작업을 즉시 완료하지는 않지만 사용자에게는 큰 장점이 있습니다. 로봇이 작업을 완료한 후 새로운 지침을 제공할 때까지 기다릴 필요 없이, 오류를 감지하자마자 로봇을 수정할 수 있습니다.

또한, 사용자가 로봇을 가볍게 몇 번 밀어 올바른 그릇을 집도록 안내하면 로봇은 해당 수정 사항을 기억하고 향후 학습에 통합할 수 있으므로 다음 날 로봇은 다시 안내를 받지 않고도 올바른 그릇을 집을 수 있습니다.

"하지만 이러한 지속적인 개선의 핵심은 사용자가 로봇과 상호작용할 수 있는 메커니즘을 갖추는 것입니다. 이번 연구에서 우리가 보여준 것이 바로 그것입니다."라고 펠릭스 얀웨이 왕은 말했습니다.

앞으로 연구팀은 성능을 유지하거나 향상시키면서 샘플링 과정을 가속화하고자 합니다. 또한, 로봇의 적응력을 평가하기 위해 새로운 환경에서 이 방법을 시험하고자 합니다.

(출처: MIT 뉴스)