赶上最新的AI论文

HDA-SynChildFaces 是一个包含合成图像的新数据集,具有改进儿童人脸识别技术的潜力。

HDA-SynChildFaces 是一个包含合成图像的新数据集,具有改进儿童人脸识别技术的潜力。

人脸识别

三个要点
✔️ 结合不同年龄儿童的面部图像创建了一个新数据集 HDA-SynChildFaces
✔️ 在新数据集上测试 MagFace、ArcFace 和 COTS 的性能显示,随着人脸年龄的增加,判断其为 "不同 "的分数增加,性能下降。
✔️ 在 HDA-SynChildFaces 上测试 MagFace、ArcFace 和 COTS 的性能表明,女性、黑人和亚洲人的识别错误率往往更高,儿童的人脸识别也是如此。

hild Face Recognition at Scale: Synthetic Data Generation and Performance Benchmark
written by Magnus FalkenbergAnders Bensen OttsenMathias IbsenChristian Rathgeb
(Submitted on 23 Apr 2023)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述。

本文旨在提高儿童人脸识别模型的性能,提供一个合成儿童人脸数据集。在过去几年里,人脸识别系统已在移民控制和犯罪调查等多个领域得到实际应用,但儿童人脸识别还没有得到足够的重视。

现在,人们经常讨论儿童面部识别系统的重要性。例如,警方可以利用它来寻找被绑架或走失的儿童。此外,儿童性虐待材料(CSAM)最近也成为一个大问题:2019 年报告了 1700 万起案件,而 2021 年将达到 2930 万起,受害者人数正在迅速增加。这些数据量非常大,人工处理能力有限,包括识别受害者。如果引入儿童友好型面部识别系统,就有可能对查获的 CSAM 进行分析,并快速、准确地识别受害者。

然而,构建人脸识别模型通常需要大量的训练数据,而获取和使用这些数据涉及隐私和人权等问题。儿童尤其是受保护的群体,而收集儿童面部图像数据目前非常困难。

因此,本文提出了一种新方法,即首先合成成人的人脸数据(有足够的训练数据),然后合成儿童的人脸数据。这样就可以在不收集实际儿童人脸数据的情况下建立儿童人脸识别模型。下图显示了 HDASynChildFaces 的一个示例。

构建 "HDASynChildFaces "数据集。

本文旨在提高儿童人脸识别模型的性能,并提供了一个合成儿童人脸图像的数据集。该数据集的创建过程如下。

  1. 取样:生成成人脸部图像并创建初始数据集
  2. 过滤:初始数据集中去除低质量或不需要的图像。
  3. 种族平衡:均衡初始数据集中的种族分布
  4. 年龄转换:成人脸部图像转换为儿童脸部图像,然后将其划分为不同的年龄组。

前两个步骤是 "1.采样 "和 "2.过滤"。首先,使用名为 "StyleGAN3 "的生成网络生成初始数据集。然后,对生成的图像进行过滤,并根据年龄和质量去除图像。年龄过滤使用的是一种名为 "C3AE "的年龄估计模型,它可以估计生成的人脸图像的年龄,如果图像的年龄低于预定义的参考年龄,则将其删除。然后,根据图像质量对图像进行过滤。它使用一种名为 "SER-FIQ "的质量评分算法,在 0 和 1 之间对图像质量进行评分。在这个分数中,越接近 1,质量越高。下图显示了根据 SER-FIQ 分数筛选出的被接受(a)和被排除(b)的图像样本。

接下来,在 StyleGAN3 的潜在空间(生成图像的内部参数空间)内对边界进行训练,以便有效地转换合成人脸图像的特定属性(如性别、年龄)。这是基于 InterFaceGAN 论文中描述的方法。该边界是属性(如 "男性 "和 "女性")之间的分界线。支持向量机(SVM)被用来寻找这一边界。如下图所示,该边界允许同一个人的性别属性有不同程度的变化。

SVM 使用 StyleGAN3 生成的大量图像(500 000 张)进行训练。每张图像的每个属性(如性别、年龄)都使用预先训练好的模型进行分类。然后只使用分类结果中最可靠的前 10%和后 10%来训练 SVM。无法成功分类的不恰当数据将被删除。这种方法适用于本文处理的所有属性。

此外,还对数据集进行了调整,以确保种族分布均匀。3. 种族平衡"。如下图所示,为了能够将某些种族变为其他种族,我们使用了前面所述的学习种族划分边界。首先,创建一个图像及其潜向量数据库,并对每幅图像进行所属种族分类。然后,从分类最多的种族中随机抽取一个对象,将其种族改为分类最少的种族。如此反复,以确保所有种族分布均匀。

下图显示了种族平衡工作前后的种族分布样本。从下图(a)可以看出,最初抽取的样本中有 70%被归类为白人,而黑人只占 0.5%,这导致分布非常偏斜,经过调整后,分布趋于均匀,如下图(b)所示。

年龄也采用上述 SVM 方法进行转换。4. 年龄转换"。不过,如果潜向量转换不当,这种方法可能会导致面部不自然的变形。例如,下图展示了一个面部过度变形的例子。前三张图片(绿色框)真实地描绘了同一个人逐渐变年轻的过程,而后三张图片(红色框)则显示了在年龄方向上过度变化时,人脸是如何失去人性和变得不自然的。


主成分分析 (PCA) 是一种自动发现此类问题的方法。两个最重要的主成分会形成一个分布,偏离分布中心太远的图像会被判定为异常图像。如果某幅图像被判定为异常,那么它很可能是非自然变形,因此会被从数据集中删除。


下图显示了用这种方法识别出的异常图像样本。

HDA-SynChildFaces "数据集由 1,652 个不同的对象组成,采用了上述流程。这里生成的 1,652 个受试者年龄都在 20 岁以上,对这些受试者进行了年龄转换,并将五个不同年龄组的图像合并在一起。这样就产生了六个数据集(一个成人数据集和五个儿童数据集)。这六个数据集中的每幅图像都有 18 个变量,因此总共合成了 1,652 × 6 × (18+1) = 188,832 幅图像。

合成对象也被分为男性(M)和女性(F)。这种分类是为了测试人脸识别系统的性能是否随性别和年龄组而变化。下表显示了每组图像的数量。在受试者中,40.3% 为女性,其余 59.7% 为男性,这导致了轻微的偏差。这种偏差归因于质量过滤过程。

如下表所示,每个受试者的种族分布也经过了均匀性调整。数据集已按种族分成若干子集,以了解人脸识别系统是否偏向于某些种族,以及这种偏向在不同年龄组之间是否存在差异。系统已经过调整,以确保种族分布均匀,但后期处理导致了轻微的不平等。

试验

HDA-SynChildFaces "数据集是具有各种特征的儿童人脸图像的合成集合,用于评估人脸识别系统识别儿童人脸的准确度。用于评估的人脸识别系统包括两个最先进的开源系统 ArcFace 和 MagFace,以及一个商用人脸识别系统 (COTS)。

如下表所示,实验结果一致表明,在所有人脸识别系统中,识别儿童人脸(尤其是低年龄组)比识别成人人脸更困难,更容易出错。这一点可以从表中 "非配对 "部分的平均值随年龄组的增大而增大这一事实中看出。这表明 "错误认知 "更为常见。标准偏差也随着年龄组的增大而增大。这表明,认知的准确性不那么一致,而且更加多变。

d "分数是另一个重要指标。它表示系统区分 "配对"(匹配的分布)和 "非配对"(不匹配的分布)的能力,分数越高表示性能越好。不过,这一分数也会随着年龄的增长而降低。这表明人脸识别系统难以识别儿童的面孔。这些结果表明,虽然人脸识别系统能够以相对较高的准确率识别成人的面孔,但识别儿童的面孔却更加困难,而且更容易出现识别错误。此外,识别幼儿面孔时的错误率特别高,这表明识别准确率存在很大差异。

此外,还评估了不同性别和种族的人脸识别系统的性能差异;由于可以观察到类似的趋势,这里只介绍 MagFace、ArcFace 和 COTS 的结果。

首先,性别结果显示,20 岁以上、13-16 岁和 10-13 岁年龄组的男性的 d'(人脸识别系统区分交配和非交配样本的能力)值高于女性。然而,在较年轻的年龄组中,女性的这一数值略高于男性:在所有年龄组中,男性的非交配平均值较高,但男性和女性的交配平均值几乎相同。这表明人脸识别系统在区分交配和非交配方面对男性略胜一筹。此外,对于 1-4 岁年龄组的儿童,女性的人脸识别系统比男性的好。


种族方面的结果显示,在所有年龄组中,白人受试者的 d'得分最高,而拉丁裔-西班牙裔受试者在成人年龄组中的 d'得分略高。另一方面,黑人受试者的 d'得分最低,其次是印度受试者,得分也较低。这些结果表明,人脸识别系统的性能因种族而异。结果还显示,在最年轻的年龄组中,所有种族的成绩都有所下降,但成绩从低到高的顺序并没有改变。这些结果表明,人脸识别系统的性能会因性别、种族甚至年龄而异。这意味着在设计和定制人脸识别系统时必须考虑到这些因素。

摘要

本文提出了一个新的数据集 HDA-SynChildFaces,该数据集由不同年龄组的儿童人脸合成图像组成,并根据人口统计学进一步进行了平衡。新数据集还验证了现有人脸识别系统 MagFace、ArcFace 和 COTS 的性能。

首先,人脸识别系统判定人脸 "配对 "的分数并没有因为人脸年龄的变化而发生显著变化。这表明,人脸年龄的增加不会明显影响人脸识别系统将其识别为同一个人的能力。然而,判定一张人脸为 "非配对 "的分数,即人脸识别系统判定其为 "不同的人 "的分数,往往会随着年龄的增长而增加。这意味着,一个人的年龄越大,人脸识别系统就越有可能错误地将其判定为 "异类"。同样,错误率(错误识别的次数)也会随着年龄的增长而增加。这表明,人脸识别系统的识别准确率往往会随着年龄的增长而降低。

性别差异也被观察到,女性的错误率和误认率高于男性。不过,研究也表明,这种趋势在 1-4 岁的幼儿群体中并不一定存在。此外,还发现了种族差异,所有种族的识别准确率都呈下降趋势,尤其是随着年龄的降低。与白人和拉美裔西班牙人相比,黑人和亚洲人的错误率和误识率尤其高,识别率也更低。在儿童面部识别中也观察到了同样的趋势。

近十年来,人脸识别技术也已达到实用水平。最近,越来越多的研究正致力于提高儿童人脸识别模型的准确性。希望这个数据集能进一步推动儿童人脸识别模型的研究和发展,从而帮助儿童避免卷入犯罪

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们