様々なカメラ位置の下で、個人のビューをレンダリングできるアバタ生成

【論文】  Textured Neural Avatarsnbsp

様々な姿勢や撮像条件など複雑な条件下での人体の把握とレンダリングは、コンピュータビジョンやコンピュータグラフィックスのにおける中核の問題の一つです。最近、従来のコンピュータグラフィックス手段の代替としてディープラーニングを用いた研究が急増しており、目、手、などの身体のリアリスティックなレンダリングが可能になっています。

しかし、既存の方法は、新しいカメラビューには一般化しにくいという課題がありました。

この研究では、様々な身体姿勢の下で、または様々なカメラ位置の下で、個人のビューをレンダリングすることができるアバタ生成に焦点を当てています。モデルは、訓練中には見えなかった新しい視点または新しい身体姿勢からその人物のレンダリングを生成できます。

ポーズ(体の関節の位置)からイメージ(2D画像)への直接マッピングを学習するConvNetを使用する最近よく使われる手法を採用しますが、ポーズから画像へのマッピングは新しいカメラビューにはあまり一般化しません。

そこで、表面のモデリングを使用してパーソナライズされたテクスチャマップを重ね合わせる従来の方法(UVマッピング)を取り入れ、エンドツーエンドでテクスチャと一緒に新しいビューピクセルのテクスチャ座標を予測するConvNetを提案しています。

明示的な形状とテクスチャ分離を保持することは、直接ポーズをイメージにマッピングする手法よりも良い一般化をもたらすことが分かりました。

フレームワーク

骨格イメージを入力すると体のポーズから身体割り当てマップ(Part assignments)と、身体パーツ座標マップ(Par tcoordinates) を予測します。これらの形状情報を直接出力(2D画像)にマッピングするのではなく、代替案として2D身体テクスチャを推定します。

身体テクスチャ

次に、パーツ座標マップ(Part coordinates)によって指定され身体テクスチャをパーツ割り当てマップ(Part assignments)によって指定された重みでサンプリングして、対応するRGB画像内のピクセルと、ボディの前景/背景マスクを予測します。

学習時には、マスクとRGB画像を実際のデータと比較し、その結果生じる損失をサンプリング操作を通して完全畳込みネットワークとテクスチャに逆伝搬し、結果を更新していきます。

結果


トレーニング中には見えない新しい視点から生成された複数のアバタ

 

(1)他の方法との比較

以下の表は異なるデータセッ上トでの本モデルとベースラインのモデルをさまざな方法で比較したものです。

右はユーザによる評価で、真ん中と右は一般的な指標として使われる方法(SSIM,FID)を用いた評価結果です。かなりいいスコアを出しています。

 

こちらは、既存の方法と提案された方法のレンダリング品質を視覚的に比較したものです。6台の任意に選んだカメラからの画像を訓練に使い、訓練中に使用しなかったビューを生成しています。

右のGTが見本で真ん中がベースライン(Direct、V2V) で、左が今回提案された方法によるものです。特に、右下隅のポーズとカメラは、すべての方法において困難なことがわかります。V2Vと比べていい勝負といった感じでしょうか。

 

(2)Fine-tuning

このシナリオでは、訓練されたモデルを単一のビデオに合わせることで、新しい人物に転送します。

反対側からカメラに投影された一連の正解ポーズで生成されたポーズを評価しています。

生成されたシーケンス画像は、どちらも同じ視点に対応していますが、ユーザース調査では、本提案の方が、より好まれやすいことがわかりました。

以下は生成されたアバタです。左が提案された手法で右がベースラインの手法です。あくまでもライター個人の主観ですが、左の方が細部まで復元できているように思えます。

 

デモ動画

さらに詳しい結果はこちらのページで確認できます