米Meta、AIが実世界を認識する能力を測る「OpenEQA」フレームワークを発表

米Metaは、2024年4月11日、事前に定義されていない「オープンボキャブラリー」の質問を通じて、物理的空間を理解するAIエージェントの評価フレームワーク、「Open-Vocabulary Embodied Question Answering(OpenEQA)」を発表した。

家庭用ロボットやスマートグラスに搭載されるAIエージェントでは、周囲の状況を理解して人々を支援するための能力、「感覚モダリティ(sensory modalities)」が重要だ。この能力は、AIエージェントが言語を介して実世界を理解するもので、AIの内部に「ワールドモデル」と呼ばれる情報セットを構築する必要がある。

OpenEQAは、現実のユースケースに沿った1600種類以上の質問と回答のペア、180本以上のビデオを用いる。また、部屋などの物理的な環境を使い、AIエージェントを評価する。これは、人間が互いの概念理解を確認するのと同様に、AIエージェントの概念理解を確認するものだ。

OpenEQAには、2つのタスクがある。1つ目の「エピソード記憶EQA」は、AIエージェントが経験の記憶に基づいて質問に答えるタスク。2つ目の「能動的EQA」は、質問に回答するために必要な情報を入手すべく、環境内で行動を起こすためのタスクだ。

同社がOpenEQAを使用して、最新のvision+language model(VLM)のベンチマークを測定したところ、最も高性能なモデルとされるGPT-4Vの48.5%でさえ、人間の能力(85.9%)と大きな隔たりがあった。同社は、空間的な理解を測る質問では、最も優れたVLMでもほぼ無力と結論付けている。

同社はコメントとして、OpenEQAの活用によって我々が見る世界をAIに理解させ、コミュニケーション能力の研究が進展することを願っている、との趣旨を述べた。

関連情報

OpenEQA: From word models to world models

関連記事

アーカイブ

fabcross
meitec
next
メルマガ登録
ページ上部へ戻る