一枚画像から人物の三次元形状を復元！同時にテクスチャする「PIFu」とは

論文 2019年07月09日

論文 PIFu: Pixel-Aligned Implicit Function forHigh-Resolution Clothed Human Digitization

今回紹介する研究では、一枚または数枚の画像を入力として深層学習を用いることで、「人物の三次元形状の復元」を行います。

これまでの研究においても、入力画像からVolumetricな表現(3D表現)の復元を行う試みは多く取り組まれてきました。しかし、Volumetricな表現では解像度の３乗に比例したメモリ容量が必要になるため、”高解像度での人物復元”は難しいとされてきました。その解像度問題を解決するために「PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization」という、新たな表現方法が提案されています。

モデル概要

本手法と既存のVolumetricな手法との一番大きな違いは、Volumetricな表現では三次元空間上の点をNxNxN(N:解像度)の箱として”全て同時に”処理を与えるのに対して、PIFuでは三次元空間上の点を”一点一点別々に”処理を与えるという点です。一点一点個別に扱うことにより、メモリ容量に制限されず高解像度なモデルを復元を行うことが実現されます。

PIFuを用いて三次元形状を得る具体的な処理についてですが、まず入力画像から、画像エンコーダを用いて画像に対応した特徴量(Fv)を抽出します。そして、次に三次元空間上の各点(x, y, z)と得られた特徴量から、その点が三次元の人物の内部なのか外部なのかを多層パーセプトロンを用いて判別していきます。この処理を三次元空間上の全ての点に対して行うことにより、空間のどこが人物の内部なのか外部なのかを求めることができ、Marching Cube法を用いることによって三次元形状の復元ができます。

また、この説明ではある点が人物の内部か外部かの判定を行いましたが、この手法を色を推定にも応用することで全身のテクスチャを同時に復元可能となります。

さらに、複数枚の画像を入力として用いることで、より精度の高い三次元復元を実現することも可能です。

結果

1. 一枚画像からの三次元復元結果

こちらが、PIFuを用いて左側の一枚の入力画像から三次元形状とテクスチャを復元した結果です。こちらの画像は、Deep Fashion Dataset に含まれるインターネット上の画像です。

PIFuを用いることで、一枚の画像から見えない部分に関しても適切に三次元形状復元が行われていることが分かります。特に、髪やスーツの線など細かい情報に関しても復元されています。また、パーカのフードのような難しいパターンに関しても、PIFuはロバストな復元を実現しています。

2. テクスチャ復元結果の比較

テクスチャ推定に関してもPIFuを用いることで、左側の既存の手法に比べて、人の側面や自己遮蔽のある領域に関しても、PIFuは綺麗に復元できていることが確認できます。

3. 複数枚画像を入力とした時の結果

こちらの結果は、PIFuへの入力画像を増やした時の三次元復元結果です。一枚の画像を入力にした時に比べ、右の６視点の画像や９視点の画像を入力にした結果の方が、特に手の領域などの細かい部分の復元が可能です。

終わりに

PIFuでは、Volumetricな手法に比べ効率良く形状を表す表現方法を用いることで、高解像度でシワやヒールなどの詳細な領域まで復元することを可能とします。これらの三次元復元結果を用いることで、服のネットショッピングの方法や、AR/VRのアバターなどで、自分の三次元モデルが簡単に使えるようになるかもしれません。