数回デモ実演するだけでロボットに新しいタスクを学習させる新技術――初めての物体でもピックアンドプレースが可能に

Courtesy of the researchers

人間が少しだけ実演してみせるだけで、ロボットがピックアンドプレース作業の新しいタスクを学習できるようにする技術が開発された。この研究は米マサチューセッツ工科大学（MIT）によるもので、2022年5月23日〜27日に米フィラデルフィア州で開催された「IEEE International Conference on Robotics and Automation （ICRA） 2022」で発表された。

ロボットは、特定の物体をピックアップするように訓練されていても、その物体が横に倒れていた場合、これを完全に新しいシナリオとして捉える。このため、機械学習システムは対象物の新しい向きについて般化するのが非常に難しい。

例えば、倉庫で棚からマグカップをピックアップして出荷用の箱の中に置くよう訓練されているロボットが、作業工程に変更が生じて、従来のマグカップより高さがあり幅が狭いうえ、逆さまに収納されているマグカップをピックアップしなければならなくなったとする。このロボットを再プログラミングするには、新しいマグカップをピックアップする方法を示す何千枚もの画像に手作業でラベル付けして、システムをもう一度最初から訓練する必要がある。

この課題を克服するため、研究チームは新しいタイプのニューラルネットワークモデル「Neural Descriptor Field（NDF）」を開発した。このモデルは、3次元物体の形状を再構築するために特別に設計されたもので、ある種類の物体の3次元形状を計算する。合成3次元形状の大規模なデータセットを用いてシミュレーションで訓練したものだが、実世界の物体にも直接応用できる。

研究チームは、NDFを「同変性（equivariance）」と呼ばれる特性で設計した。この特性により、NDFに直立したマグカップの画像を提示した後、そのマグカップが横向きになった画像を示しても、最初に提示されたマグカップが回転しただけであり同じマグカップであるとNDFは理解できる。

NDFは、類似した物体の形状を再現することを学習すると同時に、物体の関連する部分を関連付けすることも学習する。例えば、あるマグカップが他のマグカップより細長かったり幅があったり、あるいは取っ手の大きさに違いがあったりしても、マグカップの取っ手は類似していると学習する。こうしてロボットは、初めて見る対象物がどのような向きになっていても、ピックアンドプレースすることが可能になる。

この訓練されたNDFモデルを用いると、数回デモ実演するだけで、ロボットに新しいタスクを学習させることができる。ボウルの縁やマグカップの取っ手など、ピックアップさせたい部分の真上にロボットアームを移動させ、位置を記録する。こうすることで、ロボットは10〜15分以内にピックアンドプレース作業の新しいタスクを実行できるようになった。

今回、マグカップ、ボウル、ボトルを対象物として、シミュレーションと実際のロボットアームでこのモデルをテストした。このテストでは、マグカップをラックに吊るすなど、新しい対象物をつかみ上げて目標位置に設置することで「成功」したものとする。その結果、新しい向きの新しい対象物を用いたピックアンドプレース作業のタスクで、85％の成功率を示した。その一方で、ベースラインでは45％の成功率にとどまった。多くのベースラインは、3次元形状ではなく2次元画像情報を用いるため、同変性を統合することが難しい。これが、NDF技術が非常に優れた性能を発揮した理由の1つだ。

ただし、この手法は、訓練した特定の物体カテゴリーでしか機能しない。例えば、マグカップをピックアップするように訓練されたロボットは、マグカップとは幾何学的特徴が違い過ぎる箱やヘッドフォンをピックアップすることはできない。

研究チームは、将来的にカテゴリーを増やしたり、カテゴリーという概念を完全になくすことを目指している。さらに、このシステムを軟質の物体にも適用し、長期的には対象エリアが変わってもピックアンドプレース作業のタスクを実行できるようにする計画もあるという。

数回デモ実演するだけでロボットに新しいタスクを学習させる新技術――初めての物体でもピックアンドプレースが可能に