顔画像から3Dメッシュをお手軽に再構築!実写アバターは身近なものに?

3つの要点

✔️Loss関数を工夫することで教師データが十分ではない条件下でも、単一顔画像からの3Dメッシュ再構築で既存手法を上回る精度を実現
✔️撮影条件が異なる複数の顔画像から情報を補完することで、より精度の高い3Dメッシュを再構築することも可能
✔️学習用のデータセットとして、男女それぞれ100人の3Dスキャンデータをモデル化したBasel 2009 3DMMと、特徴点付き顔画像コーパスとして300-Wなどを利用

背景

昔「Avatar」というSF映画があったのを覚えていますか?最近では、実在するサッカー選手が登場するサッカーゲーム、あるいはテレビや映画の俳優が登場するアクションゲームなど、様々な場面で人間を3Dモデル化した実写アバター(avatar)をいたるところで目にするようになりました。さて、こういった実写アバターを本物らしく実現する上で特に難しいとされるのは、人の顔です。なぜなら、ちょっと骨格が筋肉の付け方が異なるだけでまるで別人のように認知されてしまうためです。

そこでリアリティを追求するため、実際にゲームや映像作品では、パフォーマンスキャプチャ(performance capture)という、モーションキャプチャー(motion capture)よりも、動作を記録するためのマーカーやセンサーの数を大幅に増やし、さらに細かな表情や視線を捉えるための専用の小型カメラを備えたデバイスが使われています。

しかしパフォーマンスキャプチャは概して高価であり、また実測にもとづくアプローチは、撮り直しが利かないケース、例えば若かった頃の俳優、あるいは故人の顔で映像を作りたいといった場合に対応することができません。そんなとき、もし本人が写った少ない写真から実写アバターが簡単に再構築出来たら、いろんなコンテンツが手軽に作れようになると思いませんか?今回は、そんな可能性が感じられた論文を紹介したいと思います。

提案手法

本論文は、単一または複数の顔画像から、高精度かつ高速に3Dメッシュ(Mesh)を再構築することを目的とします。なおメッシュとは、物体の表面を形作る多角形の集合を意味します。複数の顔画像を活用できるというのが既存手法にはない訴求ポイントの一つで、オクルージョン(occlusion)や様々なポーズ(pose)に対しロバストな点が強みとなります。

ここでオクルージョンとは、カメラからみた遮蔽物のことで、例えばサングラス(目が遮蔽される)が挙げられます。またポーズとは、顔の向きや表情のこと(正確には平行移動や回転など幾何変換で表現できるもののすべて)で、例えば正面顔や横顔といったバリエーションがあります。こうしたオクルージョンの存在やポーズの違いは、正しい推論を妨げる要因になり得ますが、本論文の手法はこうしたネガティブな要因に強いことが、実験結果から明らかになっています。

この記事をシェアする