什么是FaceController，一个高效的面部编辑模型？

人脸识别 24/06/2021

三个要点
✔️提出了一个简单的前馈式人脸生成网络，而不是费时费力的反向映射法。
✔️通过提取容易获得的独立属性信息，我们可以生成高保真的人脸图像，只改变特定的属性信息。
✔️我们以人脸交换为例，实现了与传统的相同或更好的性能。

FaceController: Controllable Attribute Editing for Face in the Wild
written by Zhiliang Xu, Xiyu Yu, Zhibin Hong, Zhen Zhu, Junyu Han, Jingtuo Liu, Errui Ding, Xiang Bai
(Submitted on 23 Feb 2021)
Comments: Accepted at AAAI 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

纲要

编辑脸部图像在视觉效果和电子商务领域应用很多。

对于人脸编辑任务来说，拥有准确和独立分离的人脸属性信息是非常重要的，这样才能准确地操作特定的属性。如果这种属性信息的准确性很高，就有可能通过编辑特定的属性信息来改变脸部的方向和表情，同时保持其身份。然而，要提取这种准确的、独立分离的人脸属性信息仍然很困难。

已经进行了各种研究，并提出了其中一项，例如GAN Invresion。然而，这种方法很耗时，也很费力。因此，在本文中，我们提出了一个简单的前馈式人脸生成网络FaceController，它由现有的容易获得的先验信息提供。

这种方法避免了提取独立分离的人脸的属性信息这一昂贵的学习过程。此外，与传统模型相比，该方法在许多指标上取得了更高的性能，并在定性和视觉比较中显示出优越的结果。

FaceController的架构

FaceController中的过程包括三个步骤。第一是提取人脸属性信息，第二是在源图像和目标图像之间交换人脸属性信息，第三是用交换的人脸属性信息生成目标图像。具体架构如下图所示。这张图是换脸的一个例子。

首先，3DMM被用来从源图像(Is)和目标图像(It)中清晰地分离和提取面部属性信息。3DMM是一种常用的分离和提取面部属性信息的方法。它将脸部属性信息分别分解和描述为形状（S）和纹理（T）。

这些S和T由主成分分析的指定向量_Ibase、_Ebase和_Tbase以及它们的标准偏差α、ρ和δ表示，如公式所示。基金会和基金会和_Tbase分别代表ID、表达和纹理。此外，照明情况k和姿势θ也被定义。

对于源图像_（Is）和目标图像_（It），提取的属性信息在图的左边部分被描述为（_αs, ρ_s, κ_s, δ_s, _θs），并表示为（_αt, _ρt, _κt, _δt, _θt）。

然而，我们发现由3DMM提取的ID和纹理并不足以生成具有视觉舒适度的真实人脸图像，因此在这里我们引入了两个编码器来补充ID和纹理的特征信息。我们认为这是由于从3DMM渲染的相应脸部和大象之间的领域差距造成的。例如，一个女人的妆容无法在3DMM中完全表现出来。为此，如图中间所示，我们引入了一个身份编码器来补充ID，以及一个风格编码器来补充纹理。

身份编码器使用最先进的预训练的人脸识别模型（Deng等人，2019a）。就在最后一个FC层之前的特征图被用来获得准确和高层次的身份信息。一个空间转换网络（Jaderberg等人，2015年）被应用于输入人脸图像到ID编码器，以实现准确定位。

为了支持对局部细节区域的编辑，风格编码器使用人脸图像的语义分割来获得每个区域的风格代码。通过编辑每个局部区域，例如，在化妆的情况下，可以编辑唇色和眼影妆。你也将能够调整特定脸部图像的照明。我们使用SEAN的编码器（Zhu et al. 2020b）作为本地区域的风格编码器。

如上所述，3DMM、ID编码器和风格编码器被用来分离和提取准确和详细的属性信息。

下一步是通过使用迄今为止获得的特征信息来生成具有高保真度的人脸图像。我们在这里的目标是为每个局部区域转换/生成具有语义标签的特定风格的自然人脸图像。因此，我们通过应用SPADE建立了一种方法，它能很好地支持每个局部区域的编辑。此外，我们还需要考虑与本地区域信息无关的额外属性信息，如之前获得的ID。

为了支持这一点，我们设计了身份-风格规范化，将每个地方区域的ID和风格信息整合到解码器中，如下右图所示。通过将这些信息纳入IS块，我们可以生成具有高保真度的图像。

下一步是训练模型。在训练过程中，我们主要考虑两个不同的学习过程：人脸重建和无监督的人脸生成。

在人脸重建的学习过程中，该模型试图通过检索同一人脸图像的属性信息来重建人脸。在这种情况下，源图像_（Is）和目标图像_（It）在架构图中是相等的。这种学习确保了_Is = _It 时生成的图像的有效性。然而，如果_是≠_它并不保证该模型能正常工作。

因此，我们将无监督人脸生成的训练，以及未配对的输入(_是≠_它)，该模型需要能够从获得的特征信息中生成一个可信的人脸图像。为了提高图像的保真度，GAN损失被应用于 "人脸重建 "和 "无监督人脸生成 "训练过程。总体而言，损失的定义如下。

_Ladv代表GAN损失。而_Lper代表感知损失，它被用作面部重建损失。生成的人脸图像_（Ig）和目标图像_（It）之间的特征图从预先训练好的VGG中提取出来，并在像素级别上进行重建，如下所示。

其余的_Lid、_Lim和_Lhm分别代表身份损失、脸部地标损失和直方图交配损失，旨在支持无监督学习和加强属性信息的单独提取。这个模型的目标是支持对人脸图像进行自由和动态的人脸属性控制。换句话说，控制是这样的：当某些属性被改变时，属性也相应地被改变，而其他属性则不被改变。如果目标是将其他属性，如面部表情和面部方向从_It转移到_Is，同时保留ID_，ID编码器可以用来鼓励生成的面部图像保持与_Is相同的ID。Cosin相似度用于估计生成的图像和源图像之间的相似度。

你也可以将ID和纹理等属性添加到_是至_它而如果你想保留面部表情和方向，你可以使用Landmark Loss来转移。_是和生成的面部图像_（Ig），以确保表情和面部方向的一致性。

在本文中，Landmark Loss也是专门为ID保留而设计的。生成的图像(袠袠袠袠袠袠袠袠)是由目标图像生成的(_它)，我们希望生成的图像(Ig)保持与目标图像(It)相同的面部表情和方向，所以我们要确保_Ig和_It有相同的地标。面部标志包括眼睛、嘴巴、眉毛和鼻子的形状。这些也与身份证信息有关。

如下图（a）和图（b）所示，不同的人有不同的面部特征和标志。因此，如下图（c）所示_它对通过利用 "地标 "生成的图像进行约束。_是的身份信息并不是一个很好的保存方式。_是的同时，保留了与之相同的身份信息_它在保留与Is相同的ID信息的同时，我们需要调整地标，使它们具有与Is相同的外观和方向。

为了解决这个问题，使用编辑好的3DMM提取3D地标，如第一个图所示。这些地标在上图（d）中显示。_是并保持完全相同的面部特征。

然后我们将_Ig的三维地标与对齐的地标相匹配，以更好地保留ID信息；ID损失（_Lid）可以保留正确的ID，但它仍然难以保留局部区域的纹理和颜色一致性。为了解决这个问题，我们进一步引入直方图交配损失，以保持区域与区域之间的风格与目标脸的一致性，其中_Ire= HM (It,_Ig)_是通过Ig和_It之间的直方图匹配得到的重新映射的Ire图像，可以表示为：。

实验结果

FaceController可以应用于各种任务，但这里我们介绍的是换脸的结果。我们将在CelebA-HQ、FFHQ和VGGFace上训练的FaceController与典型的换脸模型进行比较：DeepFake、FaceSwap、FSGAN和FaceShifter。

我们使用FaceForensics++来评估结果。下图显示的是定性的结果。可以看出，我们能够生成同样或优于传统模型的图像。

在包含人脸图像混合过程的模型中，如DeepFake和FSGAN，我们可以看到有人眼可见的被替换部分的痕迹。另一方面，不包括混合过程的模型，如FaceController和FaceShifter，产生了逼真的脸部图像，被替换部分的痕迹不明显。

此外，与FaceShifter相比，FaceController补充了ID和细节纹理信息，所以ID信息反映得更清楚，合成效果也更舒服。下表显示了量化的结果。再次，用FaceForensics++评估结果，并与DeepFake、FaceSwap、FSGAN和FaceShifter进行比较。

在这里，我们使用FaceShifter中使用的评价指标。我们从1,000个视频中的每个视频中获取10帧，共10,000张人脸图像，并评估三种性能指标。

第一个是ID Retrival (Retr.)。这评估了在编辑人脸图像后，源人脸的ID信息是否被保留。下一个是Pose。这评估了在编辑脸部图像后是否保留了脸部的方向。最后一个是表达式（Exp.）。这将评估是否保留编辑过的目标图像的表达。它也使用FID值。这评估了编辑过的脸的保真度。

在Retr.的评估中，CosFace被应用于提取ID信息，并选择具有最接近余弦相似度的人脸。在Pose和Exp.的评估中，分别通过表情识别模型估计人脸的方向和提取表情信息，并通过L2距离评估相似度。

结果显示，与现有模型相比，FaceController在ID保留和生成图像的保真度方面具有最佳性能。这可以归功于ID编码器和风格编码器的良好表现。在本文中，为了验证ID编码器和风格编码器的效果，我们还评估了只引入ID编码器和只引入风格编码器时的性能。

定性结果如下图所示。当只引入ID编码器（w/o style）时，生成的样式在嘴唇等部位与目标图像（Target）不一致，如第四行图像所示。这表明，仅靠3DMM并不能为生成高保真度的人脸提供详细的纹理。此外，当只引入Style Encoder时，我们可以看到生成的图像与源图像（Source）的ID信息有差异，如第三行所示。

定量的结果见下表，与定性的结果相同。

当只引进Style Encoder时，ID信息采集系统会大大减少。当只引入ID编码器时，ID几乎不受纠缠的影响。此外，我们可以看到，脸部的方向和表情没有受到影响。

摘要

在本文中，我们提出了一个用于前馈网络的人脸编辑模型（FaceController），它比以前的模型更有效率，并成功地生成了具有特定属性信息编辑的非常高保真的人脸图像。该模型还通过Disentanglement分离和提取面部特征信息，并提出无监督损失，以确保对各种面部属性的控制。FaceController可以广泛地应用于各种与人脸有关的应用。然而，另一方面，可能还需要进一步的改进，因为脸部方向的重大变化可能会导致生成的图像边缘出现黑点或目光的错位。