平面画像を三次元モデルに呼びおこせ！次元変換モデル「Mesh R-CNN」!

論文 2019年06月17日

参考論文 : Mesh R-CNN

画像から空間を把握する

我々人間の目が普段認識しているのは、三次元空間です。眼球を通じて、網膜に映し出された画像から奥行きや形状を認識しています。また、写真は”人間のみている視点”をそのまま写しますが、それらは二次元平面です。では、画像をどのように変換すれば奥行きや形状を予測することができるでしょうか？

新しく提案された「Mesh R-CNN」では、二次元画像(平面的)から三次元化(空間的認識)への変換可能にします。二次元入力画像から物体を識別し、それら物体をボクセル表現化し、グラフ畳み込みニューラルネットワークにおいて精製することで、画像内の物体をメッシュ化された3次元モデル化します(上画像参照)。

既存の研究と大きく異なる点として、これまでの次元変換モデルは、幾何学的に規定された範囲でのみしかメッシュ化できず、その精度には限度がありました。今回の手法ではメッシュ化を用いた新たなメカニズムを構成することで、既存モデルを上回るより自由かつ精度が高いモデルを再現することを可能にしています。