物体カテゴリの推定より更に高次の認識へ～物体の機能推定

論文 2019年07月19日

近年、深層学習技術の発展により画像中に映った物体が何であるかを予測する物体認識や、画像中の物体の位置を推定する物体検出は高精度に行えるようになってきました。今回は、それらのタスクとは異なり、画像中に映った物体の「機能」を推定する論文を紹介します。

画像中に映った物体の「機能」を推定

人は、例えば椅子を見たとき、それが椅子であるということがわかることはもちろんですが、その物体に「座れそう」だ、ということも暗に予測・推定することができますよね。

このように、人が物体を見たときにその物体のカテゴリ（その物体が何であるか）に関係なく、その物体に対してどういった行動ができそうかということを予測するように、機械（AI）でも物体の機能を予測できないかこの論文ではチャレンジしています。このような機能推定のタスクは、ロボットの業界や認知科学の分野で幅広く着目されています。

機能の推定では、物体の「どの」部分が行動を誘発させるか、そして「なんの」行動を誘発させるかを推定することが重要となります。（例えば椅子だと、椅子の「背」の部分に「もたれかかり」、「座面」の部分に「座る」など）

本論文の特色は、既存の機能推定の研究とは異なり、その物体の機能を教師ラベルとして与えずとも、人が行動するビデオを学習させるだけで、その物体の機能を予測できるようになるところにあります。そして、その物体は実際に人が行動していなくとも、（例えばカタログ画像のような物体だけしか映っていない画像）機能の予測ができるようになるところももう1つの特色です。

つまり、下図のように、人が物体（本）に対して行動する（持つ）様子だけから、どの部分に「持つ」機能が発現するかを推定することを可能にしています（右図の赤緑青の部分）。