米Google DeepMind、ロボットをより賢く制御する新モデルを発表――汎化性能が3倍以上に

米Google DeepMindは2023年7月28日、ロボットを制御する新しいVLA（vision-language-action）モデル「Robotic Transformer 2（RT-2）」を発表した。画像とテキストの認識のためのウェブデータに加え、物体／環境／タスク／状況などについてのロボットデータも学習することで、ロボットをより賢く制御できる。

Google DeepMindは昨年、ロボットの入力をトークン化し、アクション（例：カメラ画像、タスク指示、モーターコマンド）を出力するマルチタスクモデル「RT-1」を発表している。

今回のRT-2は、ウェブスケールのデータで事前に訓練されたVLM（visual-language model）が、さらにRT-1のロボットデータを学習してできたものだ。ウェブデータとロボットデータ双方の知識を、ロボット制御のための一般化された命令に変換することで、ロボットを制御できる。

RT-2は、汎化性能（未知のデータに対応する能力）が向上した他、接したロボットデータを超えた意味的／視覚的理解を示した。そのことは、ウェブの事前訓練からの知識と、ロボットの経験から知識を組み合わせる必要があるタスクを用いて評価した。

例えば、「テーブルから落ちそうなバッグを拾う」、「バナナを2＋1の解答に移動させる」といったコマンドは、ロボットデータでは見たことのない物体やシナリオについての操作タスクをロボットに実行させるもので、操作にはウェブデータからの知識が必要だ。つまり、視覚的／意味的概念の理解と、それらの概念を操作するロボット制御の能力が要求されるのだ。

研究では、このような創発的なロボットスキルを、記号理解／推論／人間認識という3つのカテゴリーに分類。すべてのカテゴリーで、以前のRT-1モデルといった従来のベースラインと比較して、3倍以上の汎化性能の向上が観察された。その他の観点からの評価でも、RT-2はRT-1より性能が向上していた。

米Google DeepMind、ロボットをより賢く制御する新モデルを発表――汎化性能が3倍以上に