赶上最新的AI论文

IDiff-Face:使用合成数据的人脸识别技术的发展以及应对法律和伦理挑战

IDiff-Face:使用合成数据的人脸识别技术的发展以及应对法律和伦理挑战

人脸识别

三个要点
✔️ 建立 "IDiff-Face "数据集:提出了一个新的合成数据集 "IDiff-Face",以解决法律和伦理问题
✔️ 在人脸识别技术中的应用:使用 "IDiff-Face "的人脸识别比传统合成数据集的准确率更高
✔️平衡隐私保护和技术发展:解决人脸识别数据集生成过程中的隐私保护挑战,同时提供新方法促进人脸识别技术的发展

IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion Models
written by Fadi BoutrosJonas Henry GrebeArjan KuijperNaser Damer
(Submitted on 9 Aug 2023 (v1), last revised 10 Aug 2023 (this version, v2))
Comments: Accepted at ICCV2023
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

自从深度学习取得突破性进展以来,人脸识别技术的准确性有了显著提高,并被广泛应用于日常生活的方方面面。而人脸识别技术的一大贡献就是大型数据集。然而,这些数据集大多是在未经用户同意的情况下从互联网上收集的。这导致了法律和道德问题,许多数据集已不再可用。

因此,为解决这一法律和伦理问题,合成人脸图像替代技术备受关注。然而,传统的合成数据集存在一些问题,如缺乏单个人脸的类内多样性以及难以区分不同人脸的身份。本文提出了一种生成合成数据集的新方法 "IDiff-Face "来解决这些问题:使用 IDiff-Face 进行人脸识别的准确率高于现有的合成数据集,其准确率接近使用基于真实人脸图像的数据集进行人脸识别的准确率。达到了接近使用真实人脸图像数据集的准确率。

本文提出了一种新方法,利用合成数据集进一步推进人脸识别技术,同时避免法律和道德问题。

什么是 "IDiff-Face"?

下图是 IDiff-Face 的概览。它分为两个部分:上部(培训)和下部(采样)。上部显示学习过程。下部显示条件采样过程。在上部的学习过程中,去噪 U-Net 根据从预先训练好的人脸识别模型中获取的特征对上下文进行调节;去噪模型(DM)的整个学习过程都是在预先训练好的自动编码器(AE)的潜空间中进行的。在下层采样中,经过训练的脱融合模型(DM)根据三种面部特征生成样本。通过固定面部特征和改变添加的噪声,可以生成相同身份的不同样本�

IDiff-Face 基于一种称为去噪扩散概率模型(DDPM)的深度学习模型,该模型在预先训练好的自动编码器潜空间上进行训练。其核心是根据使用人脸识别模型获得的特征或 "身份上下文 "进行调节。这种调节使 IDiff-Face 能够生成特定身份的人脸图像。IDiff-Face 的另一个重要功能是生成合成图像。这一过程可以根据输入面部图像的特征生成不存在的人的逼真面部图像。该技术可以生成现有图像的变体,也可以生成新的合成身份图像。

此外,通过使用上下文部分剔除(CPD)技术,生成图像的多样性也得到了提高。该技术旨在防止身份上下文过度拟合,并允许使用相同的身份上下文生成不同的图像。该过程通过随机忽略部分上下文来保持图像生成的多样性。

下图将一个典型的合成人脸图像数据集与本文提出的 IDiff-Face 数据集进行了直观比较。最上面一组(蓝色)是合成人脸识别模型 SOTA 中使用的合成人脸图像。下一组(绿色)是 IDiff-Face 模型中使用不同 CPD 概率和不同合成嵌入类型的样本。最后一组(黄色)是建议方法在现有 LFW 数据集上生成的不同身份变化样本。每个身份有四张图片,每种方法有两个身份示例。

合成人脸识别模型(如 SynFace 和 USynthFace)利用 DiscoFaceGAN 生成的合成图像。它基于单独的表示学习。由于生成的人脸图像受一组预定义属性的控制,它们可能缺乏真实世界人脸图像中存在的类内多样性。另一方面,SFace 是一种类条件 GAN 模型,它并不对这些属性进行明确建模。它经过有条件的训练,生成带有特定标签的合成图像。它可以生成具有更多类内变化的图像,但身份可分性较低。相比之下,DigiFace-1M 图像是通过 3D MMM 渲染生成的:DigiFace-1M 身份被人为定义为面部几何、纹理,尤其是发型的组合。然而,这种方法计算成本极高,不适合用于研究目的,因为它使用复杂的计算渲染管道来生成大型数据集。

实验结果

在此,我们将对前面介绍的各种方法生成的人脸图像之间的差异进行定量评估。下表列出了在合成数据集上使用拟议模型进行身份可分性评估的结果。前两行显示的是 LFW 和 CASIA-WebFace 真实数据集的结果。与包含真实人脸图像的 LFW 和 CASIA-WebFace 相比,IDiff-Face0% CPD)在 "两阶段 "和"统一 "中表现出相似的性能IDiff-Face(0% CPD在 LFW 数据集中性能为 0.003Two-Stage),在 Uniform 数据集中的性能为 0.007(Uniform

此外,还对使用 Uniform 算法生成的合成数据进行了性能评估类似的还有使用Two-Stage 算法生成的合成数据,其上下文概率分布 (CPD) 概率分别为 0%、25% 和 50%所有训练数据集都包含 5,000 个身份,每个身份 16 个样本,共计 80,000 个样本,并在 LFW、AgeDB-30、CA-LFW、CFP-FP 和 CP-LFW 五个基准上进行了评估。

从上表可以看出,在 IDiff-Face 数据集上训练的人脸识别模型即使使用较小的合成数据集(8 万个样本)也能达到很高的准确率。对于在两阶段生成的数据集上训练的模型,在 CPD25 和 CPD50 生成的数据集上训练的人脸识别模型取得了非常有竞争力的结果。可以看出,CPD 通过增加生成样本的类内差异性,显著提高了人脸识别的准确性。

下表还显示了 SOTA 在五个基于合成的人脸识别基准测试中的验证准确率。前两行显示的是在真实人脸图像数据上训练的人脸识别模型的结果。它们被用作对比。合成人脸图像数据的人脸识别模型使用的是 ResNet-50。基于合成的人脸识别模型的最佳验证准确率以粗体标出,次佳验证准确率以下划线标出。

使用 IDiff-Face 训练的人脸识别模型优于以往所有基于合成的人脸识别模型:基于 IDiff-Face 的模型达到的平均准确率为 88.20%,而基于 SOTA 合成的平均准确率为 83.45%(根据 DigiFace-1M)。通过增加训练数据集的规模,IDiff-Face 还能提高所有实验环境下的人脸识别准确率。此外,与增加数据集深度(每个身份的图像数量)相比,增加数据集宽度(身份数量)可获得更高的准确率。例如,使用 CPD25(Uniform)的 IDiff-Face 在使用 160K 样本(5K 个身份,每个身份 32 张图像)时,平均准确率为 82.86%。当使用 16 万个样本(1 万个身份,每个身份 16 幅图像)进行训练时,准确率提高到 83.87%。

摘要

人脸识别的训练数据集需要较大的类内变异性。真实人脸图像数据集具备这些特点,并为提高人脸识别的准确性做出了巨大贡献。然而,出于隐私保护的考虑,很难利用真实人脸图像来学习人脸识别。本研究提出了 IDiff-Face 来解决这一问题。这是一个基于扩散模型(DM)的身份条件生成模型。它还引入了上下文概率分布(CPD),防止模型过度拟合身份上下文,并控制身份可分性和类内变化之间的权衡。这是一种简单而有效的机制。此外,IDiff-Face 在五个主要的人脸识别基准上达到了 SOTA 准确度,超过了主要的基于合成的人脸识别方法。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们