インターネット動画だけで学習させたAI、Googleの「Genie」が仮想世界を生成

2024-3-13
制御・IT系, 技術ニュース, 海外ニュース
2次元（2D）, AI, Genie, Google DeepMind, text-to-image, X, 基盤ワールドモデル（foundation world model）, 生成モデル

米Google DeepMindのオープンエンドネスチームは、2024年2月26日、2次元（2D）の世界を生成するAI「Genie」を、Xの投稿で紹介した。Genieは、画像のプロンプトを与えられると、無限といえる多様なアクションを制御できる、2Dの仮想世界を生成する。

Genieの実体は、インターネット上の動画のみを使用してトレーニングした、「基盤ワールドモデル（foundation world model）」だ。写真やスケッチなどの画像をプロンプトとして与えることで、人々が想像した仮想世界と対話することを目指す。

インターネット上の動画は通常、実行中のアクションを識別したり、画像のどの部分を制御すべきかを判断したりするためのラベル情報を持っていない。Genieの特徴は、動作を分類する手段である「アクションラベル」を使用しないトレーニング方法だ。

Genieは、観察中の動画に対して、制御できる部分を学習するだけでなく、生成した仮想世界のなかで、どうすれば一貫性のあるアクションになるかを推論する。この特徴により、Genieは、公開中のインターネット動画を大規模なデータセットとして学習できる。

さらに、1枚の画像から、まったく新しいインタラクティブな環境を作り出す能力がある。例えば、文字情報から画像を出力する「text-to-image」生成モデルを使用し、Genieはその画像に、生命を吹き込むように質を向上させると同社は説明する。

現在、Googleは、2Dゲームとロボット工学のビデオに焦点を当てている。ただし、この方法論には汎用性があり、他の分野でも機能するはずだと説明し、Genieによって画像やテキストからインタラクティブな世界全体を生成できる時代に入る可能性があると期待している。

I am really excited to reveal what @GoogleDeepMind‘s Open Endedness Team has been up to 🚀. We introduce Genie 🧞, a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc

— Tim Rocktäschel (@_rockt) February 26, 2024

インターネット動画だけで学習させたAI、Googleの「Genie」が仮想世界を生成