2次元画像から3次元形状を推測するコンピュータービジョン技術を開発

Credits:Image: Wei-Chiu Ma and Jose-Luis Olivares, MIT

マサチューセッツ工科大学（MIT）の研究チームは、2次元画像から3次元形状を推測する新しいコンピュータービジョン技術を開発した。コンピューターに、より人間に近い視覚を持たせたいとしている。研究結果は、2022年6月19～24日に開催された「CVPR（Conference on Computer Vision and Pattern Recognition）2022」で発表された。

数学的に2次元画像から3次元データを得るためには、2枚の画像から共通点を抽出し、2台のカメラ位置と角度を特定し、対象物の座標を三角測量から求める方法がある。同定数が多ければ、対象物の細かい形状も得られるかもしれない。しかし、この手法は入力画像の視点が大きく異なる場合や、共通点が少ない場合は役に立たないかもしれないと、博士課程の学生であるWei-Chiu Ma氏は指摘する。

一方、人は視点の変化が大きい場合でも、共通点を探したり、カメラの位置を推測できる。極端な例を挙げれば、ある人物を同じタイミングで撮った写真の1枚目に顔が、2枚目に後頭部が映っている場合、2台のカメラの向きは180度くらい違うのだろうと、すぐに想像できる。これは、現在のコンピュータービジョンが不得意とするところだ。人はあらかじめ、人物の正面と背面の見え方の違いを把握しているため、両者を関連付けることができるのだと、研究チームは説明する。

論文の筆頭著者でもあるMa氏は、こうした人間の推論方法に触発されて、エピポーラ幾何を利用した「Virtual Correspondence（仮想一致）」技術を提案した。

例えば、1体のウサギの左半身、右半身をそれぞれ撮影した写真を用意する。2枚の写真に共通点はないが、仮想一致技術では、光の直進性とウサギの体のつくりに関する一般知識を利用することで、左側のカメラから出た1本の光線が、右半身のどこに相当するか知ることができる。その点が右半身の写真からの点と一致すれば、三角測量を使って、3次元空間での距離を計算できる。事前に必要な知識や常識は、ニューラルネットワークを利用してアルゴリズムに組み込まれている。

チームの最終目標は「人間のように3次元の世界を理解できるコンピューターを作ること」だ。Ma氏は、その目標はまだ実現しそうにないと認めつつ、「人間のように振る舞うシステムを構築するためには、より難しい設定が必要だ。言い換えれば、静止画を解釈するだけでなく、短い動画や最終的にはフルバージョンの映画を理解できるコンピューターを開発する必要がある」と、今後の開発に意欲を見せている。

2次元画像から3次元形状を推測するコンピュータービジョン技術を開発