现在有一种技术，可以编辑视频人物的面部动作，以配合任何情绪！这就是我们的技术。

CVPR 05/08/2022

三个要点
✔️ 建议交叉重构情感分离，将音频分成情感相关和语音内容相关的特征。
✔️ 提议的目标自适应人脸合成，以弥补估计地标和输入视频运动之间的差距。
✔️ 启用具有情感控制功能的视频编辑方法，这是现有方法中所没有的。

Audio-Driven Emotional Video Portraits
written by Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, Feng Xu
(Submitted on 15 Apr 2021 (v1), last revised 20 May 2021 (this version, v2))
Comments: Accepted by CVPR2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

一个被称为音频驱动的谈话头像的研究领域，即视频中人的面部被编辑成与输入的音频同步，由于其在电影制作和远程呈现方面的巨大需求，已经在各种方法中被提出。

然而，以前的这些研究大多集中在语音内容和人的嘴之间的相关性上，还没有开发出考虑到情绪的方法，而情绪是人类面部表情的重要特征。

在建立情感表达模型以配合说话的语调时，以下挑战被认为是其原因。

从语音中提取情感的难度，因为情感信息与语音内容等其他特征错综复杂地交织在一起。
合成含有编辑过的情感信息的人脸和图像的困难。

本文中提出的情感视频。 肖像画(EVP)是挑战1的解决方案。交叉重构的情感纠葛来解决挑战2，以及目标自适应的人脸合成来解决挑战2，使其成为该领域中第一个实现情感控制的模型。

情感视频肖像（EVP）的概述。

如下图所示，EVP由两个主要元素组成，即交叉重构的情感分解和目标适应性面部合成。

伪训练对。

为了通过语音合成实现情感控制，需要从语音信号中独立提取有关情感和语音内容的信息，而这些信息本身是复杂的。

因此。来分离这些信息。使用现有研究中的交叉重构，但由于这种方法要求不同情绪的相同语音内容的音频片段以相同的长度配对。使用不同人物在不同情绪状态下说相同内容的视听数据集，以及构建两个伪训练对。

具体来说，Mel FrequencyCepstral Coefficients（MFCC）被用来获取语音信息，而Dynamic Timig Warping（DTW）则通过沿时间维度拉伸和收缩MFCC特征向量，来调整两个语音片段的长度。

这样创建的训练对被用来训练下面的交叉重构情感解读法。

交叉重构的情感纠葛

交叉重构情感分解的学习程序如下图所示。

语音片段_Xi,m由语音内容i的信息和情感信息m组成和语音片段_Xj,n，由语音内容j的信息和情绪n的信息组成情感编码器(Ee₎和内容编码器(Ec₎被用来从以下方面独立提取信息

这确保了当两段信息完全分离时，音频剪辑X_i,m和X_j,n从内容嵌入中得到的_Ec(X_i,m)和情感嵌入_Ee(X_j,n)，都来自解码器D，可以用来重建音频片段_Xi,n可以重构。

目标自适应的人脸合成

本文提出了一种名为 "目标自适应人脸合成 "的方法，以弥补由分离的音频信息产生的面部地标与视频中人物的姿势和运动变化之间的差距。

该方法包括三个过程

用于从分离的音频信息中预测地标运动的音频-地标模块。
3D-Aware Keypoint Alignment，它将生成的面部地标与视频中人物的面部地标在3D空间中对齐。
边缘到视频转换网络来合成生成地标和目标帧的边缘图。

让我们一个一个地看。

1.音频转地标模块

这个过程的目标是从提取的情感信息的音频片段中预测地标的位置和运动，这就要求从对齐的地标的面部形状，即视频中人的身份信息，不被改变。

因此，我们使用多层感知器来提取地标身份嵌入_fa并提取出f_a是指内容嵌入E_c和情感嵌入E_e被发送到音频到地标模块，同时还有

然后，LSTM网络使用音频到地标的模块来标记_ld是由LSTM网络预测的。

2.三维感知关键点对准

为了对齐头部姿势，首先使用现有方法对视频进行地标检测，然后是通过使用参数化的三维脸部模型解决非线性优化问题，从二维地标恢复三维参数。

然后，形状和表情的参数被用来获得_L3dp，一组姿势不变的三维地标，如下式所示。

其中m是平均面部标志的位置，_bgeok和_bexpk是通过高质量面部扫描的主成分分析和blendshape（动画方法之一）计算的形状（几何）和表情（表达）的基础。

3.边缘到视频转换网络

鉴于从训练中获得的地标和目标帧，从地标和帧中提取的边缘图被结合起来以创建一个引导图。

具体来说，边缘检测算法Canny Edge Detection用于检测非面部区域的边缘，用通过训练获得的地标替换原始地标位置，随后将相邻的面部地标连接起来以创建一个面部草图。

这使得生成与视频中人的运动相匹配的平滑、真实的帧成为可能。

定性比较

本文对现有的三种方法进行了比较

ATVGnet（Chen等人，2019）：一种基于图像的方法，根据地标合成面部运动，并采用注意力机制来提高生成质量。
Everybody's Talkin' (Song et al. 2020):一种基于视频的方法，通过应用3D人脸模型进行有声视频编辑。
MEAD（Wang等人，2020）：第一个具有情感控制功能的人脸生成方法，与本方法最相关。

生成的结果显示在下图中。

结果显示，。

Chan和Song的方法没有考虑到情绪，因此产生了可信的口型，但总是带有中性情绪。
Wang的方法是直接从语音信号中学习口型，其中情绪和语音内容的信息是交织在一起的，所以预测的口型情绪可能与面部表情不一致（Wang行左边的红框）。
- 此外，Wang的方法对头部移动较大或背景变化的数据不够稳健，诸如不可能的面部表情（Wang行中间的表情）或发型等特征可能发生变化（Wang行右边的红框）。
与这些相比，本方法能够生成具有高保真度的情感面部图像。

因此，事实证明，与现有的方法相比，该方法的表现非常好。

量化比较

为了定量评估这种方法和现有方法，LD (地标距离=。生成地标和实际地标之间的平均欧氏距离)和LVD(地标速度差速度地标之间的差异)被用来评估面部运动。

LD和LVD被应用于嘴部和面部区域，并分别评估了合成的镜头对嘴唇运动和面部表情的准确性，此外还比较了SSIM、PSNR和FID的得分，这些都是现有方法的评估指标。

结果显示在下面的表格中。

M代表口部区域，F代表面部区域，表格证实了该方法在所有指标上都优于现有方法。

用户研究

为了量化生成的视频片段的质量，在以下条件下使用该方法、三种现有方法和真实视频进行了用户研究

八个情绪类别中的每一个和三个发言人中的每一个都产生了三个视频剪辑，总共有72个视频被评出。
评估分两个阶段进行：首先，参与者被要求对特定视频的音频和视频质量进行评分，并在1（最差）到5（最好）的范围内打分。
- 之后，在观看没有背景声音的真实视频片段后，为生成的无声视频选择情感类别，并评估是否生成了适当的情感表达。

以下是有50名参与者的问卷调查结果。