写真19.jpg
フェリックス・ヤンウェイ・ワン - MIT電気工学・コンピュータサイエンス(EECS)博士課程学生。出典:MITニュース

ロボットが食器洗いを手伝ってくれていると想像してみてください。シンクから石鹸の入ったボウルを取るように指示したのに、グリッパーが必要な場所を正確に掴まない。

MITとNVIDIAの研究者が開発した新しいフレームワークを使えば、簡単なジェスチャーでロボットの動作を制御できます。ボウルを指差したり、画面に線を描いたり、ロボットの腕を正しい方向に軽く動かしたりすることも可能です。

ロボットの行動を修正する他のアプローチとは異なり、この技術では、ユーザーが新たなデータを収集し、ロボットを制御する機械学習モデルを再学習させる必要がありません。その代わりに、ロボットはリアルタイムの視覚的な人間からのフィードバックを用いて、ユーザーの意図に最も適した行動シーケンスを選択できます。

研究者がこのフレームワークをテストしたところ、人間の介入を必要としない代替アプローチよりも成功率が 21% 高かった。

将来的には、このフレームワークにより、工場でトレーニングされたロボットが家庭内の環境や物体をこれまで見たことがなくても、ユーザーがロボットにさまざまな家事タスクを実行するよう指示することが容易になる可能性があります。

「一般のユーザーにデータ収集やニューラルネットワークモデルの微調整を期待することはできません。ユーザーはロボットが箱から出してすぐに使えることを期待しており、何か問題が発生した場合は直感的に修正できる仕組みが必要です。これが、この論文で私たちが取り組んだ課題です」と、MIT電気工学・コンピュータサイエンス学科(EECS)の大学院生で本研究の筆頭著者であるフェリックス・ヤンウェイ・ワン氏は述べています。

偏差を最小化する

最近、研究者たちは事前学習済みの生成AIモデルを用いて「ポリシー」、つまりロボットがタスクを完了するために従う一連のルールを学習しています。これらのモデルは多くの複雑なタスクを解決できます。

トレーニング中、モデルは有効なロボットの動きにのみさらされるため、適切な動きの軌跡を生成することを学習します。

しかし、これはロボットが行うすべての行動がユーザーの実際の期待と一致することを意味するわけではありません。例えば、ロボットは棚から箱を倒さずに拾うように訓練されているかもしれませんが、本棚のレイアウトが訓練時に見たものと異なる場合、本棚にある箱に届かない可能性があります。

このようなエラーを修正するために、エンジニアは新しいタスクに関する追加データを収集し、モデルを再トレーニングすることがよくありますが、これは機械学習の専門知識を必要とする、コストと時間のかかるプロセスです。

その代わりに、MIT チームは、ロボットがミスをするとすぐにユーザーがロボットの行動を調整できるようにしたいと考えています。

しかし、人間がロボットの意思決定プロセスに介入すると、生成モデルが誤って無効な行動を選択してしまう可能性があります。ロボットは人間が欲しがっている箱を手に入れるかもしれませんが、その過程で棚の本を倒してしまう可能性があります。

「私たちは、ユーザーがそのような間違いをすることなくロボットと対話し、妥当性と実現可能性を確保しながら、ユーザーの意図により合った動作を実現できるようにしたいと考えています」とフェリックス・ヤンウェイ・ワンは語った。

意思決定能力を高める

これらのインタラクションによってロボットが無効なアクションを取らないようにするため、チームは特別なサンプリング手順を採用しています。この手法により、モデルは有効な選択肢の中から、ユーザーの目的に最も適したアクションを選択することができます。

「ユーザーの意図を押し付けるのではなく、ロボットがユーザーの意図を理解できるようにしながら、サンプリングプロセスを学習した動作を中心に変動させます」とフェリックス・ヤンウェイ・ワン氏は述べた。

このアプローチのおかげで、彼らの研究フレームワークは、シミュレーション実験だけでなく、モデルキッチンでの実際のロボットアームのテストでも他の方法よりも優れた結果を達成しました。

この方法では必ずしもタスクがすぐに完了するわけではありませんが、ユーザーにとって大きな利点があります。ロボットがタスクを完了するまで待ってから新しい指示を与えるのではなく、エラーを検出するとすぐにロボットを修正できるのです。

さらに、ユーザーがロボットを数回軽く押して正しいボウルを拾うように誘導すると、ロボットはその修正を記憶して将来の学習に組み込むことができるため、翌日には再度誘導する必要なくロボットは正しいボウルを拾うことができます。

「しかし、この継続的な改善の鍵は、ユーザーがロボットと対話できるメカニズムを持つことであり、まさにそれが今回の研究で実証されたことです」とフェリックス・ヤンウェイ・ワン氏は述べた。

今後、研究チームは、性能を維持または向上させながら、サンプリングプロセスを高速化したいと考えています。また、ロボットの適応性を評価するために、新たな環境でこの手法をテストしたいと考えています。

(出典:MITニュース)