EMOCA现在能够从输入的图像中生成更有表现力的3D脸部模型!

3D 24/08/2022

三个要点
✔️ 提出了EMOCA（Emotion Capture and Animation），一个能够从人脸图像中生成更具表现力的3D人脸模型的模型。
✔️ 介绍了一个新的损失函数，Emotoin一致性损失，以准确地从面部图像中恢复面部表情。
✔️ 在情感识别任务中的表现可与最先进的基于图像的方法相媲美

EMOCA: Emotion Driven Monocular Face Capture and Animation
written by Radek Danecek, Michael J. Black, Timo Bolkart
(Submitted on 24 Apr 2022)
Comments: Conference on Computer Vision and Pattern Recognition (CVPR) 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

随着3D面部化身在现代动画、游戏和VR中越来越广泛地用于交流，准确传达情感的重要性也变得越来越重要。

然而，现有的从人脸图像回归三维人脸模型的方法未能捕捉到图像上的详细情感信息，生成的三维人脸模型缺乏情感表达。

相比之下，本文作者开发了一个用于学习的标准重建度量(地标重投误差, 测光误差, 人脸识别损失)在训练中用来捕捉情绪是不够的，这导致了三维人脸模型的形状与输入图像中的情绪不一致。

本文提出的EMOCA（情感捕捉和动画）模型通过引入一个新的损失函数--情感补偿，来解决这个问题。该模型通过引入 一致性损失来解决这个问题。此外，估计的三维人脸参数可用于进行面部表情分类，这就是事实证明，其性能可与最先进的基于图像的方法相媲美。让我们来看看这些特征中的每一个。

EMOCA: EMOtion Capture and Animation

EMOCA的灵感来自于面部图像的情感识别任务，该任务迄今已取得重大进展，其结构是为了训练最先进的情感识别模型，然后在训练EMOCA时将其作为教师。

具体来说，它通过优化上述的情感一致性损失来学习向三维人脸模型传达情感信息，以匹配输入图像和重建的三维人脸模型之间的情感表达。

EMOCA建立在DECA之上，DECA是一个三维人脸重建框架，在现有方法中实现了最高的身份形状重建精度。通过在DECA架构中增加一个关于面部表情的可训练分支，并保持其他部分的固定，就有可能在保持DECA面部形状质量的前提下，只用富含情感的图像数据训练ECMO的面部表情部分。EMOCA的结构如下图所示。

这个模型的学习分为两个学习阶段：粗略阶段（图中绿框）和细节阶段（图中黄框）。

在COARSE阶段，输入图像从DECA被传递到一个初始化和固定的粗略形状编码器和一个EMOCA可训练的表达式编码器。

然后用FLAME形状模型和反照率模型作为解码器，从回归的ID、表情参数、姿势参数和反照率参数中重建一个纹理的三维网格。在这个时候，电子运动一致性损失对输入图像中的情感特征和渲染的情感特征之间的差异进行惩罚。

最后，在DETAIL阶段，EMOCA的表达式编码器是固定的，回归的表达式参数被用作细节解码器的条件。

由于这种结构，由EMOCA从单一图像生成的3D人脸模型在重建面部表情的质量方面明显优于现有的最先进的方法，保持了最先进的身份形状重建精度，此外，重建的3D人脸模型很容易被动画化。此外，重建的3D人脸模型可以很容易地被制作成动画。

情感上的一致性丧失

该模型对损失函数进行优化，用以下公式表示。

在这个公式中，_Lemo=情感一致性损失，Lpho₌光度损失，_Leye=眼睛闭合损失，Lmc=嘴巴_闭合损失，_Llc=唇角损失，L_ψ=表情正则，每个正则都由一个系数λx加权。

情感一致性损失是本文提出的一个新的损失函数，它计算了输入图像_εI和渲染图像_εRe的情感特征之间的差异，具体如下。

在训练过程中优化这一损失，使重建的三维人脸模型能够传达输入图像的情感信息。

实验

在本文中，EMOCA的第一阶段（COARSE STAGE）使用AffectNet与Adam优化器和5e-5的学习率进行训练，最多20个epochs，而第二阶段（DETAIL STAGE）则统一设置为与DECA相同的定量和定性验证。该研究进行了。

量化评价

在这个验证中，使用AffectNet和AFEW-VA测试数据集并通过与现有方法的比较来评估EMOCA的情绪识别的准确性。

对于每一种方法，协和相关系数（CCC）、皮尔森相关V、唤醒（A）和表达分类（E）的系数（PCC）、均方根误差（RMSE）和符号一致性（SAGR）得分。

结果显示在下面的表格中。

因此，EMOCA优于所有现有的方法，并被证明可与最先进的基于图像的方法EmoNet相媲美。

定性评价

下图将EMOCA的重建结果与现有的方法进行了比较。

生成的3D人脸模型从左到右分别是输入图像、3DFFA-V2、MGCNet、Deng等人、DECA和EMOCA，这种比较验证证实了EMOCA能够比其他方法更好地学习输入图像的情感。

摘要

情况如何？在这篇文章中，我们解释了EMOCA（EMOtion Capture and Animation），这是一种利用单张实拍图像从输入图像中重建带有情感信息的3D人脸模型的方法。EMOCA（EMOtion Capture and Animation），一种利用单一的真人图像重建包括输入图像的情感信息的三维人脸模型的方法。

本文是第一个关注三维人脸重建方法中面部表情及其情绪的感知质量的研究，代表了社区在这些领域的一个新方向。该文件也是第一份关于这是一个融合3D人脸重建方法和情感分析领域的新尝试，预计将被用于游戏、电影和AR/VR。

然而，随着这种3D面部模型的获取和动画制作的改进，更逼真的深度造假成为可能，而且检测这种恶意造假可能会变得更加困难，因此这是一个非常困难的研究领域，需要不断意识到这些风险。可以说，这是一个非常困难的研究领域，需要不断意识到这些风险。

所介绍的模型结构和生成的三维人脸模型的细节可以在本文中找到，感兴趣的人可以参考一下。