入力画像からより表情豊かな3D顔モデルの生成を可能にしたEMOCAが登場！

3D 2022年08月24日

3つの要点
✔️ 顔画像からより表情豊かな3D顔モデルの生成を可能にするモデルであるEMOCA(EMOtion Capture and Animation)を提案
✔️ 顔画像から得られた表情を正確に復元するための新たな損失関数であるEmotoin consistency lossを導入
✔️ 感情認識タスクにおいて、最先端の画像ベース手法に匹敵する性能が得られた

EMOCA: Emotion Driven Monocular Face Capture and Animation
written by Radek Danecek, Michael J. Black, Timo Bolkart
(Submitted on 24 Apr 2022)
Comments: Conference on Computer Vision and Pattern Recognition (CVPR) 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

現代においてアニメーションやゲーム、VRなどで3D顔アバターがコミュニケーションに広く利用されるようになるにつれ、感情を正確に伝えることの重要性が高まってきています。

しかしながら、顔画像から3D顔モデルを回帰する既存手法は、画像上の詳細な感情情報を捉えることができず、生成した3D顔モデルが感情表現に乏しいという問題がありました。

これに対して本論文の著者達は、学習に用いる標準的な再構成指標(landmark reprojection error, photometric error, face recognition loss)が感情を捉えるのに不十分であり、それにより入力画像の感情と一致しない3D顔モデルの形状になってしまうことを発見しました。

本稿で紹介するEMOCA(EMOtion Capture and Animation)は、学習時に復元された3D顔モデルと入力画像の表情の差異を計測する新たな損失関数であるemotion consistency lossを導入することでこの問題に対処したモデルになります。加えて、推定された3D顔パラメータを用いることで表情分類を行うことができ、感情認識タスクにおいて最先端の画像ベース手法に匹敵する性能を得ることが実証されました。それぞれの特徴について見ていきましょう。

EMOCA: EMOtion Capture and Animation

EMOCAは現在までに大きな進歩を遂げている顔画像の感情認識タスクに触発されたものであり、最先端の感情認識モデルを学習し、それをEMOCAの学習時に教師として利用する構造になっています。

具体的には、入力画像と再構成された3D顔モデル間の感情表現を一致させるために上述したemotion consistency lossを最適化させることで、3D顔モデルに感情的な情報を伝えるように学習します。

また、EMOCAは既存手法の中で最も高精度なidentity shape reconstruction accuracyを達成している3D顔再構成フレームワークであるDECAの上に構築されており、DECAのアーキテクチャに顔の表情に関する学習可能なbranchを追加し他の部分は固定することで、DECAの顔形状の品質を維持したまま、ECMOAの表情部分のみを感情豊かな画像データで学習させることを可能にしました。EMOCAの構造は下図のようになります。

本モデルの学習は、COARSE STAGE(図の緑枠)とDETAIL STAGE(図の黄色枠)の2つの学習段階に分かれています。

COARSE STAGEでは入力画像が、DECAから初期化し固定したCoarse shape encoderと、EMOCAの学習可能なExpression Encoderに渡されます。

その後、FLAMEの形状モデルとアルベドモデルをDecoderとして、回帰されたID、表情パラメータ、姿勢パラメータ、アルベドパラメータからテクスチャ付きの3Dメッシュが再構成されます。この時、後述するemotion consistency lossは、入力画像の感情特徴とレンダリングされた感情特徴との差異にペナルティを与えます。

最後に、DETAIL STAGEでは、EMOCAのExpression Encoderを固定し、回帰された表情パラメータをDetail Decoderの条件として使用します。

この構造により、EMOCAによって1枚の画像から生成された3D顔モデルは、再構成された表情の品質において既存の最先端手法を大きく上回り、最先端のアイデンティティ形状の再構成精度を維持し、加えて再構成された3D顔モデルは容易にアニメーション化することが可能となっています。

emotion consistency loss

本モデルでは、以下の式で表される損失関数の最適化を行います。

この式において、L_emo＝emotion consistency loss、L_pho＝photometric loss、L_eye＝eye closure loss、L_mc＝mouth closure loss、L_lc＝lip corner loss、L_ψ＝expression regularizerであり、それぞれ係数λxで重み付けされています。

この中のemotion consistency lossが本論文で提案された新規の損失関数であり、入力画像ε_Iとレンダリング画像ε_Reの感情特徴量の差分を以下のように計算します。

学習中にこの損失を最適化することで、再構成された3D顔モデルが入力画像の感情的な情報を伝えることが可能になります。

Experiments

本論文では、EMOCAの第一段階(COARSE STAGE)ではAffectNetを用いてAdam optimizerと学習率5e-5で最大20エポックで学習させ、第二段階(DETAIL STAGE)での学習は、DECAと同じ設定に統一し、定量的・定性的な検証を行いました。

Quantitative evaluation

本検証では、AffectNetとAFEW-VAのテストデータセットを用いて、既存手法との比較検証により、EMOCAの感情認識精度を評価しました。

各手法について、既存研究で定義されたvalence(V)とarousal(A)とexpression classification(E)に関する、Concordance correlation coefficients(CCC)、Pearson correlation coefficients(PCC)、root mean squared error(RMSE)、sign agreement(SAGR)のスコアを比較しました。

その結果を下の表に示します。