ポケモンGOなどから収集したデータを元に大規模地理空間モデルの構築を目指す 米Niantic

位置情報を活用してプレイするARゲームアプリ「ポケモンGO」などを開発している米Nianticは、2024年11月12日、大規模な機械学習を使用して把握した場面を世界中の何百万もの他の場面と結び付ける「大規模地理空間モデル(Large Geospatial Model:LGM)」の構築を進めていると発表した。

近年、インターネット上の膨大なテキストデータで訓練され、書き言葉を理解し生成できるようになった大規模言語モデル(Large Language Model:LLM)が注目を集めているが、その一方で、「空間知能(spatial intelligence)」を持つAIの開発は、まだ初期段階にある。

人間には三次元空間で物体の状態などを正確に把握する能力があり、過去に遭遇した数え切れないほどの類似の場面を基にして、自分が見ている物の細部を頭の中で埋めていくことができる。そのため、教会や彫像、町の広場など、見慣れたタイプの構造物を目にしたとき、人間は他の角度から見たらその構造物がどう見えるかを想像できる。しかし、機械にとってこの作業は非常に難しく、最先端のAIモデルでさえ、その場面で見えていない部分を新しい角度から視覚化して推測することは苦手だ。

Nianticは、過去5年間、独自のビジュアルポジショニングシステム(VPS)構築に注力してきた。同社のVPSは、ポケモンGOをはじめとするゲームや、あらゆる物を3Dスキャンして世界地図上で共有するアプリ「Scaniverse」からユーザーが提供したデータを基に構築されている。何年にもわたってさまざまな視点からさまざまな時間帯に撮影、またはスキャンされたデータには位置情報も付加されているため、非常に詳細に世界を把握できるようになっている。歩行者の視点からデータを取得しているので、車が入れない場所のデータも含まれている点が特徴だ。

VPSの一部として、Nianticはこれまでに5000万以上のニューラルネットワークを訓練しており、これらのネットワークを組み合わせると、機械学習が最適化したパラメーターは150兆を超える。世界中で1000万カ所がスキャン済みで、そのうち100万カ所以上が有効化されており、同社のVPSサービスで利用できるようになっている。

同社のニューラルマップは、現在VPSの一部として使用可能であり、発展の可能性がある地理空間モデルで、確かに「大規模」なものだ。しかし、同社が目指すLGMは、独立した各ローカルネットワークから地球規模の大規模モデルへ共通の情報を集約し、ローカルモデル間でデータ共有を可能にして、まだ完全にスキャンされていない場所でもどのように見えるのかを推測できるようにするというものだ。

例えば、教会の裏側に立っていて、最も近いローカルモデルはその教会の正面玄関しか認識したことがないと仮定した場合、そのモデルは教会の裏側を認識していないが、地球規模で見ると世界中に何千もの教会のデータがあり、多くの教会には共通の特徴がある。このように、LGMは分散された知識にアクセスする方法であり、このプロセスは人間が世界を認識し想像する方法と似ている。

Nianticの研究チームが、2024年4月9日付でプレプリントとして公開した論文では、同社が持つデータのごく一部を使って訓練した「MicKey」ニューラルネットワークを紹介している。MicKeyは、視点が大きく変化しても2つのカメラビューの位置を相対的に配置でき、人間が理解するには多少の労力を要するような正反対のショットも扱える。MicKeyは2視点入力に限定されていて、かなり少ないデータで訓練されたが、それでもLGMの可能性についての概念実証を示すものだという。

また、「地理空間知能(geospatial intelligence)」を実現するには膨大な量の地理空間データが必要であり、その点で毎週100万件以上のスキャンデータをユーザーから受け取るNianticは、LGMの実現をけん引する立場にあるとしている。

LGMはコンピューターが物理的世界を把握し理解するのを手助けするだけでなく、新しい方法で物理的世界と関わり合うことを可能にし、ARメガネ(ARグラス)や、ロボット工学、コンテンツ制作、自律システムなどの分野で重要な要素を形成するものになると同社は考えている。

関連情報

関連記事

アーカイブ

fabcross
meitec
next
メルマガ登録
ページ上部へ戻る