赶上最新的AI论文

DigiFace-1M,一个新的大规模数据集,用于使用合成面部图像进行面部识别。

DigiFace-1M,一个新的大规模数据集,用于使用合成面部图像进行面部识别。

人脸识别

三个要点
✔️ 消除了传统人脸识别数据集发现的侵犯隐私和未经同意的问题
✔️ 最大的人脸识别数据集,拥有11万张122万张复合人脸图像
✔️ 实现了比最新人脸识别模型SynFace更高的复合人脸图像的准确性

DigiFace-1M: 1 Million Digital Face Images for Face Recognition
written by Gwangbin BaeMartin de La GorceTadas BaltrusaitisCharlie HewittDong ChenJulien ValentinRoberto CipollaJingjing Shen
(Submitted on 5 Oct 2022)
Comments: 
WACV 2023
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

过去的几年里,由于大型数据集的发展,人脸识别相关任务的准确性得到了显著提高为了让人脸识别模型能够识别更多的人,它需要学习更多的人脸图像(人数)。另外,为了实现更高的通用性,需要为每个人学习许多类型的人脸图像(图像数量/人)。例如,"MS1MV2 "85000人的580万张脸部图像组成(约68张/人)。而'Face260M'由400万人的2.6亿人脸图像组成(大约65张/人

然而,另一方面,针对大型数据集也提出了一些问题:一个是隐私问题。许多传统的大规模数据集从互联网上收集名人面孔的图像,以增加数据集中所包含的人数。他们还使用来自Flickr和其他网站的公开可用的脸部图像。然而,这些图像最初不是作为面部识别模型的训练数据提供的,也没有获得同意。因此,他们被批评为侵犯隐私和其他问题。一些数据集的用户受到限制。这种趋势在未来可能会蔓延。

另一个是标签噪音的问题。由于该系统在互联网上搜索名人的名字,并收集出现在搜索结果中的脸部图像,它经常包含不正确的脸部图像。这些成为人脸识别模型训练中的噪音,导致性能不佳。最后,还有一个数据偏差的问题。也是由于互联网上收集的名人脸部图像,普通人的脸部图像相比,有特殊的条件,如化妆和照明此外,他们中的许多人往往是高加索人。例如,在大型数据集CASIA-WebFace中,85%是白种人

如上所述,传统的大规模数据集有很多问题。因此,带有合成人脸图像的数据集吸引了很多人的注意。

什么是DigiFace-1M?

本文,面部图像是用Wood等人发表的方法合成的(更多细节可以在这篇文章中找到。经同意获得的511张面孔的三维扫描数据在一个图形管道中进行处理,以建立面部几何和纹理的参数化模型,然后随机地然后,该模型被随机修改,以合成精心制作的各种面部图像下图显示了数据集中包含的合成人脸图像的样本。


在本文中,生成了由11万个人组成的122万张人脸图像(大约11张/人),但根据生成和存储图像的成本,建立更大的数据集也是可能的。

数据集的构成

该数据集由122万张人脸图像组成(大约11张/人),包括11万人,但由两个数据集组成。

一个720,000张脸部图像组成,包括10,000人。对于每个人,准备了四套配件组合,对于每套配件,在不同的相机条件、面部方向、表情和拍摄环境下合成了18张图像换句话说,每个人要合成72张图像(=4 x 18)。由于一个人在不同条件下有多种人脸图像,这个系统可以通过训练来提高其通用性。

另一个由500,000张脸部图像组成,包括100,000人。对于每个人,准备一套配件组合,对于每套配件,用不同的相机条件、面部方向、表情和拍摄环境合成五张图像换句话说,每个人有五张图片(=1 x 5)被合成虽然这里每个人的图像数量较少,但由于目标人物的数量较多,可以提高识别更多人物的准确性。下图显示了每个人的配件组合(样本)。衣服、眼镜、化妆品、面罩(如面具)和头饰(如帽子)是随机应用的。头发和胡须的颜色、密度等也是随机应用的。在下图中,每一行是同一个人,每个人有四种配件组合。

然后,对于这些配件的每一种组合,都会合成具有不同相机条件、面部方向、表情和拍摄环境的图像如下图所示:第一个数据集有18张图像,第二个数据集有5张

由于创建复合人脸图像是为了取代真实人脸图像,因此要求图像尽可能具有与真实人脸图像相同的条件。真实的人脸图像有部分隐藏的人脸、扭曲和所用相机固有的噪音这些合成的人脸图像是没有的。因此,还进行了数据扩展以减少这些领域差距如下图所示,翻转和裁剪、外观(噪音和模糊)和包裹(移位和变形等)被添加到原始图像中。

数据扩展的影响。

下表显示了测试数据扩展的影响的结果。可以看出,在有数据扩展的数据集中,准确性(Accuracy)得到了提高(红框)。我们还可以看到,准确率有所提高,特别是对于脸部方向变化较大的数据集(CFP-FP和CPLFW)。

数据集构成(人的数量与图像/人的数量)。

下表通过改变数据集中两个单位的比例来比较数据集的准确性。数据集逐渐从一个图像/人(图像/ID)比例较高的数据集变为一个(ID比例较高的数据集下图中的结果显示,与只使用其中一个单元相比,混合使用这两个单元提高了准确性。

为了让人脸识别模型识别更多的人,它需要学习更多的人脸图像(人的数量)。另外,为了实现更高的通用性,需要为每个人训练许多类型的人脸图像(图像数量/人)。将两个具有不同数量的图像/ID的单元混合在一起,被认为是将这两种效果最大化的有效方法。

与SOTA(SynFace)的比较

性能与最新的人脸识别模型SynFace进行了比较,SynFace是在合成的人脸图像上进行训练的;SynFace使用DiscoFaceGAN合成了500,000张由10,000人组成的人脸图像更多信息可本文找到

下表(第1-3行显示了结果:将SynFace与本文合成的人脸图像上训练的人脸识别模型(Ours)进行比较,我们可以看到,在所有数据集上,它都明显优于SynFace请注意,Avg†是LFW、CFP-FP和CPLFW的平均值。

此外,还加入了40000张真实的人脸图像(Real images)来评估性能。假定在征得当事人同意的情况下,有一个现实的图像数量,可以排除标签噪音和数据偏差的影响。上表(第4-6行)显示了结果。可以看出,在所有的数据集上明显优于SynFace此外,从与上表的比较中可以看出第1-3行),加入真实的人脸图像可以提高准确率这里,在用合成人脸图像进行预训练后,用真实的人脸图像进行Finetune。

特别是,AgeDB和CALFW看到了显著的准确性提高,论文指出,与其他数据集相比,这两个数据集被认为具有特别大的领域差距本文合成的人脸图像不能很好地反映出随时间的变化,数据集需要在未来更新以考虑到这一点。如上所述,添加少量真实人脸图像时的表现结果如下图所示,它显示了添加真实人脸图像的数量与准确性之间的关系。结果显示了只用合成人脸图像训练时(黑色虚线,Train on SX),只用少量真实人脸图像训练时(红线,Train on Real),用合成和真实人脸图像混合训练时(蓝线,Dataset Mixing),以及用合成和真实人脸图像混合训练时(蓝线,Dataset Mixing)的准确性转变。图中显示了用合成人脸图像进行预训练,然后用真实人脸图像进行微调时的转变(黑线,Train on SX & Finetune on Real)。

真实人脸图像中的人数从200人到2000人不等,每个人都有20张图像被采样。该图可以看出,使用真实人脸图像Finetune方法所有数据集来说都是最准确的,因为网络是合成人脸图像预先训练的如果只有少量的真实人脸图像,例如由于隐私问题,本文提出的合成人脸图像的数据集可以用来大幅提高准确率(Accuracy)。

摘要

在本文中,一个图形管道被用来建立一个具有合成人脸图像的大型数据集。然后,它取得了SynFace好得多的准确性(Accuracy),SynFace是一个人脸识别模型也是在合成人脸图像上训练的SynFace还使用DiscoFaceGAN,在训练这个GAN时使用了大量的 "真实人脸图像"。这意味着它在很大程度上依赖于传统大型数据集中所指出的侵犯隐私、缺乏同意、标签噪音和数据偏差等问题。

另一方面,本文提出的大型数据集使用了511名个人的3D扫描数据,并得到他们的同意。因此,它不依赖于传统大规模数据集所发现的问题。此外,虽然本文没有详细讨论,但要合成的人脸图像的面部表情等属性信息也可以得到控制,这使得构建比以前更高质量的数据集成为可能。预计基于这种合成数据的数据集的发展将继续促进高性能人脸识别模型的发展,这种模型具有隐私意识,更安全,更有保障。本文发表的大规模数据集可以在这里找到

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们