基于Fake和Real数据分布的非对称学习框架--Single-Side Domain Generalization，提高泛化性能!

其他 19/01/2021

3个要点
✔️ 基于假人脸图像(Fake)比真人脸图像(Real)具有更大的分布方差这一特征，提出了一种新型的非对称端到端单边域泛化(SSDG)框架。
✔️设计单边对抗性学习和非对称三重损失，实现适合Real和Fake的不同优化，提高欺骗检测的泛化性能。
✔️ 代表性数据集的SOTA代表性数据集的性能。

Single-Side Domain Generalization for Face Anti-Spoofing
written by Yunpei Jia, Jie Zhang, Shiguang Shan, Xilin Chen
(Submitted on 29 Apr 2020)
Comments: AAccepted by CVPR2020 (oral)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

勾勒

近年来，人脸识别技术在我们的日常生活中得到了广泛的应用，如智能手机的登录、门禁等。另一方面，各种人脸欺骗方法（如打印、重放、3D面具）也被报道，这让我们面临着巨大的安全风险。

为了解决这个问题，人们研究了各种人脸欺骗检测方法。大多数现有的最先进的方法在Intra-dataset上实现了高性能，但在Cross-dataset上仍然面临挑战，因为训练数据集（源域）与测试数据集（目标域）不同。

这是因为传统方法没有考虑到不同领域之间的分布关系，因此针对特定的数据集学习到的特征有偏差，导致对未知领域的泛化性能不足。

为了解决这个问题，最近的人脸欺骗检测引入了域适应，通过使用未标记的目标数据，最大限度地减少源域和目标域之间的分布不匹配。然而，在很多实际场景中，收集大量无标签的目标数据进行训练是困难的，也是昂贵的，甚至无法获得目标域的信息。

因此，一些研究开始致力于通过应用领域泛化（Domain Generalization，DG）来提高人脸欺骗防范的泛化性能，其目的是利用现有的多个源域来训练模型。

传统的DG旨在通过调整多个源域之间的分布来学习一个通用的特征空间。然后，我们假设从未知的人脸图像中提取的特征可以被映射到接近共享特征空间的地方，这样模型就可以成功地泛化到新的领域。

真实人脸图像在源域和目标域的分布差异较小，可以比较容易地学习到一个紧凑的特征空间。另一方面，由于冒充类型和数据采集方式的多样性，很难紧凑地总结出不同领域的假人脸图像特征。

因此，假人脸图像很难找到一个通用的特征空间，这也可能影响目标域的分类精度。

因此，即使我们实现了真人脸和假人脸的紧凑特征空间，如下图左侧所示（常规DG），也很难学习到一个新的目标域Classifier。

在这样的背景下，本文提出了一种将所有真人脸图像的特征进行紧凑聚合的方法，同时将假人脸图像的特征空间分布在不同的域中，如上图右侧所示（我们的DG），约束条件是尽量区分真假人脸图像。本文提出。这使得我们可以学习具有更高泛化性能的类边界（Classifiers）。

SSDG框架

下图显示了该框架的概况。它主要分为两部分。

首先是单方对抗性学习。目标是通过收集多个领域的真实人脸图像（数据集），学习一个具有高泛化性能的模型，并在不区分领域的情况下进行泛化。

真人脸图像的数据方差被认为比假人脸图像小得多。因此，学习真实人脸图像的广义特征空间是比较容易的，我们相信可以学习到更多的通用识别线索。

首先，将多个域的数据（数据集）分为真人脸图像（X_r）和"假"人脸图像（X_f），分别输入到真人脸的特征生成器（G_r）和假人脸的特征生成器（G_f），提取特征（Z_r、Z_f）被提取出来。

在这之后，单侧对抗式学习仅使用域判别器（D）应用于真实图像。此时，引入梯度反转层（GRL）同时优化G和D。

D中，真实人脸图像的特征，即。Z_r是真实人脸图像的一个特征，D尝试识别域，G学习不识别域。损失函数（L_Ada）采用一般交叉熵，如下所示其中，Y_D代表域的正确标签。

通过引入单边对抗式学习，我们可以从真实的人脸图像中学习到具有高泛化性能的特征空间，从而实现鲁棒识别。这种单侧逆向学习只适用于真实的人脸图像，对于方差较大的假人脸图像，则采取另一种方法，称为非对称三层挖掘，接下来将对其进行解释。

二是非对称三联采。它可以训练模型，使真人脸图像的映射更加紧凑，假人脸图像的映射更加分散。

如前言所述，真实的人脸图像具有较高的相似性和相对较小的方差，所以即使它们具有不同的域，也可以作为同一组来对待。然而，由于冒充类型和数据采集方式的不同，假人脸图像的差异性更大，因此很难像真人脸图像一样学习到通用的特征空间。

在此，我们考虑到分布差异较大的特征，学习了假人脸图像的分布式特征空间，如下图所示。每个域中的假人脸图像(Fake)分别用圆形、正方形和三角形表示，每个域中的真人脸图像(Real)用不同颜色的x表示。非对称三层挖掘将不同域的Fake分离出来，并将Real域聚合起来。同时，所有的假货都与真货分开。

因此，假人脸图像的特征在特征空间中可以更加分布，类边界可以更加概括化。

在非对称三联挖矿中，G用以下的损失函数（L_AsTrip）进行优化。其中，x^a_i为Anchor，x^p_i为正值，xⁿ_i为负值样本。α为预先设定的余量。

同时引入特征和权重的归一化，进一步提高泛化能力。在人脸识别领域，归一化被认为是有效的。特征权重的标准与图像的质量有很大关系。每个领域的数据采集条件（如相机质量）不同，也会影响泛化性能。

在这里，我们对G的输出进行l2归一化处理，使所有特征共享相同的欧氏距离，进一步提高了人脸防欺骗的性能。我们对权重也应用l2归一化。

整个模型的损失函数制定如下

由于每个域都包含一个标签，所以人脸冒充检测的Classifier是在G之后实现的，如第一个模型概述图所示。人脸防冒充的分类器和G都是通过交叉熵（LCls）来优化的。所有的部件都是经过端到端的培训。

实验

本文采用两种不同的架构作为特征生成器进行比较。一个是在2019年CVPR上提出的MADDG，另一个是ResNet-18的应用。在下文中，这两种不同的架构用-M和-R来表示。我们还使用以下四个公共数据集。

- OULU-NPU(符号：O)
- CASIA-FASD(符号：C)
- Idiap Replay-Attack (记号：I)
- MSU-MFSD(记号：M)

本文随机选择一个数据集作为测试的目标域，其他三个数据集作为训练的源域。因此，共有四项测试，O＆C＆I对M，O＆M＆I对C，O＆C＆M对I，I＆C＆M对O。

与基线模式比较

我们将本文提出的SSDG与相应的基线模型进行比较。和之前的基线模型一样，我们设计了一个模型，对真假对象进行对比优化。

在基线中，在特征生成器之后，我们又增加了一个领域判别器，对真假人脸图像特征进行对抗性学习。另外，不对称三倍损被三倍损取代，真假都汇总在一起。对于基线，也采用了前面提到的两种不同的架构，分别以BDG-M和BDG-R表示。

比较结果见下表。后面我们会看到，BDG-M的性能达到了很高的水平，与最先进的MADDG的性能相当。

BDG-M和MADDG所有测试的平均HTER分别为23.09%和23.06%。另一方面，SSDG-M在所有测试中的平均HTER为20.79%，比BDG和MADDG都要好。

这表明，很难找到一个通用的假人脸图像特征空间。换句话说，对于人脸冒充检测的任务，真假人脸图像的非对称优化效果更好，泛化性能更好。

与SOTA模式的比较

如下图和表格所示，SSDG在所有四项测试中都优于最先进的模型。

对于MADDG以外的模型，这可能是因为我们没有考虑不同领域之间的内在分布关系。因此，它只提取每个用于训练的数据集的偏向性特征，这导致对未知数据集的性能显著下降。

至于MADDG，域泛化（DG）可以用来提取提供更普遍的识别线索的特征，但由于真假人脸图像的分布特征有很大的不同，寻找一个泛化的特征空间来匹配是很难优化的，而且有些准确度较差。

由于数据集中的欺骗类型和数据采集方式多种多样，从假人脸图像中提取的特征在特征空间中的分布比真实人脸图像更广泛，要将不同领域的特征全部汇总起来并不容易。

所提出的SSDG通过对真假人脸图像应用非对称优化来改进问题，相信可以学习到更通用的特征空间，提高性能。

此外，使用基于ResNet18的网络(SSDG-R)比SSDG-M有显著改进。这表明，当SSDG与更有效的模型相结合时，可以获得更高的性能。

SSDG的可视化

在下图中，使用Grad-CAM将班级激活图（CAM）可视化。

SSDG显示，它总是关注面部区域，并寻找有效的线索进行识别，而不是特定领域的背景和照明。这使得未知领域的泛化性能很高。

此外，如下图所示，我们从四个数据库中随机选取200个每类样本，将tSNE结果可视化，并分析SSDG和BDG学习的特征空间。可以看出，SSDG比BDG能够更好地在特征空间中分布假人脸图像的特征。相比之下，真实人脸图像的特征分布更为紧凑。因此，我们可以看到，SSDG可以实现更合适的类边界，并适当地泛化到目标领域。

摘要

本文提出了一种新型的端到端单侧域泛化（SSDG）框架，以提高人脸欺骗防范的泛化能力。

SSDG学习的是一个更通用的特征空间。在这里，真人脸图像（Real）的特征分布变得更加紧凑，而假人脸图像（Fake）的特征分布则是跨域分布。换句话说，与现有的方法同时对称处理真假人脸图像不同，我们不对称地对每一个人脸图像进行不同的优化。

为此，设计了单边对抗性学习和非对称三倍损失，将真人脸图像聚合到较小的尺寸，并将假人脸图像从不同的域中分离出来。

广泛的实验表明，SSDG是有效的，可以在四个公共数据集上实现SOTA结果。

如本文所述，这些结果表明，真假人脸图像的特征分布确实不同，对它们进行不对称处理可能会使未知领域的泛化性能更高。

未来有望进一步研究设计其他的不对称性，比如根据冒充类型（打印、重放、3D面具等）以及数据集来分离假脸图像。