
人工智能与伦理:在合成面部图像数据集上更准确地分析人脸识别算法偏差的影响!
三个要点
✔️ 人脸识别技术中的偏差问题:人脸识别算法受到人口属性造成的偏差的影响,可能会使某些种族和性别处于不利地位。
✔️ 传统偏见评估方法的局限性:传统方法显示人脸识别模型性能与某些属性的相关性,但无法显示因果关系。
✔️ 新评估方法的建议:使用人脸生成工具,只改变某些属性,而其他属性保持不变,从而清楚地显示某些属性对人脸识别模型性能的影响。
Benchmarking Algorithmic Bias in Face Recognition: An Experimental Approach Using Synthetic Faces and Human Evaluation
written by Hao Liang, Pietro Perona, Guha Balakrishnan
(Submitted on 10 Aug 2023)
Comments: Accepted to ICCV2023
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
人脸识别技术得益于深度学习,已在信息安全和犯罪调查等多个领域得到实际应用。然而,由于年龄、种族和性别等人口属性造成的偏见是一个主要问题。在刑事调查中使用人脸识别技术时,只有特定种族的人才会处于不利地位。在人脸识别技术的研究中,正确评估和理解人脸识别模型中偏见的影响非常重要。
本文提出了一种新方法,用于评估人脸识别模型中的偏差,这种方法比以前的方法更准确,也更有因果关系。传统的评估方法依赖于在自然环境(野外)中收集的人脸图像数据集。这些数据集也包含种族和性别等属性的标签,但这些标签仅仅表示图像特征与这些属性之间的相关性。换句话说,这些标签并不能揭示特定属性如何影响人脸识别模型性能的因果关系。例如,"模型 A 对数据集 X 中的女性和男性人脸显示出不同的准确率",但这并不能说明特定属性(在本例中为性别)如何影响准确率之间的因果关系。换句话说,传统的评估方法无法确定这一结果是由于性别偏见还是其他因素(如数据集中女性图像的质量更高或更多样化)造成的。
本文提出的方法使用基于神经网络的人脸生成工具来生成人脸图像。这样就可以只改变某些需要研究其影响的属性(如种族和性别),而保持所有其他属性(如年龄和面部表情)不变,从而可以分别清楚地评估特定属性对人脸识别模型性能的影响。因此,可以得出更具体的因果结论,如 "模型 A 的准确性受到性别和肤色的影响"。
建议方法
本文提出的方法包括七个步骤来测量人脸识别系统的偏差。第一步,对 GAN 的潜空间进行采样,生成随机种子人脸图像。这是用于训练人脸识别模型的基础人脸图像。在第 2 步中,控制 GAN 潜在空间的特征,生成一个包含种族和性别的人脸图像原型,如下图所示。
请注意,"WM"、"WF"、"BM"、"BF"、"AM "和 "AF "分别代表白人男性、白人女性、黑人男性、黑人女性、东亚男性和东亚女性。步骤 3:如下图所示,对每个人脸原型图像的面部方向、年龄、表情和光照进行修改。
在步骤 4 中,根据生成的人脸图像创建图像对。在步骤 5 和 6 中,进行人工注释。对于每张图像或图像对,我们都会评估属性和图像对的相似程度:使用亚马逊 SageMaker Ground Truth,收集来自九个人的注释,并将其平均值作为注释结果。对于每张合成人脸图像,我们都要求用户以五分制标注肤质、性别、面部表情、年龄和虚假程度。在属性注释方面,我们从 2214 位注释者那里收集了 123,000 条注释。此外,对于创建的每对图像,为确保从普通人的角度来看这些脸部对属于同一个人/不同的人,注释者在图像对上标注了 "可能相同"、"可能相同"、"不确定"、"可能不同"、"可能不同 "等注释。可能不同"、"可能不同 "或 "可能不同"。在图像对的注释中,共收集了来自 1,905 名注释者的 432,000 条注释。
注释在下图所示的界面上进行。请注意,在本文中,人类对图像的评分(注释)被称为 "人类共识身份可信度"(HCIC)。
最后,在步骤 7 中,将合成的人脸图像对输入人脸识别模型,并使用 HCIC 评估偏差。
试验
本文使用三种人脸识别模型对人脸识别算法进行了偏差分析,这三种模型分别是在 Glint360k 上训练的 ResNet-34、在 MS1MV3 上训练的 ResNet-34 和在 VGGFace2 上训练的 SFNet-20。所有这些模型都在自然环境中收集的大型数据集(In the Wild)上进行过训练,在每个测试数据集上都达到了很高的准确率。通过向这些模型输入图像对并计算余弦相似度,对模型的性能进行了评估。
该数据集采用上述方法创建,包含 10 200 个由 600 个不同 ID 组成的复合人脸图像数据集。然后使用该数据集生成 12,000 对相同的人脸图像和 36,000 对非相同的人脸图像。
在本文中,只有冒充性得分低于 0.8 的图像对才被用于最终分析,共有 11,682 对相同的人脸图像和 35,406 对非相同的人脸图像。下图显示了冒充性得分在 0.8 或以上的人脸图像实例。除此以外的数据均被采用。
首先,本研究探讨了改变面部特征(属性)如何影响人脸识别模型对人脸图像对之间相似性的预测。下图显示了在 ResNet34 (MS1MV3) 模型中改变面部方向时的结果
正如预期的那样,人脸识别模型在相同原型(相同属性、相同物种图像)的人脸图像之间显示出最高的相似性,而在不同批次类型的人脸图像之间显示出最低的相似性。这表明人脸识别模型能够区分不同组别的人脸图像。此外,它还表明,随着人脸的角度偏离 0°,相似度会降低。这意味着人脸的方向会影响相似度的判定。此外,上图中第二项和第三项的比较显示,人脸识别模型在识别人脸时将人口属性(如种族和性别)作为重要信息。这种分析有助于了解人脸识别模型如何对不同属性做出反应,对于揭示人脸识别模型的偏差和局限性非常重要。
下图还显示了针对不同人口统计学属性的人脸识别模型偏差的 FNMR(= 错误非匹配率)和 FMR(= 错误匹配率)评估结果。模型 1 代表在 VGGFace2 上训练的 SFNet,模型 2 代表在 MS1MV3 上训练的 ResNet34,模型 3 代表在 Glint360k 上训练的 ResNet34。请注意,FNMR 是指同一人的人脸图像中,被人脸识别模型错误判断为非同一人的比例。它的计算方法是用被错误判断为不同人的人脸图像对的数量除以实际上是同一个人的人脸图像对的总数。FMR 是指实际上不是同一个人的人脸图像对被人脸识别模型错误判断为同一个人的比例。它的计算方法是将错误判断为同一人的图像对数除以实际不同的图像对总数。
上图显示,所有人脸识别模型对白人男性和白人女性的错误率都最低。这表明这些人脸识别模型对白人人脸的识别最为准确。另一方面,我们可以看到这些模型在识别黑人女性时表现很差,尤其是模型 3(在 Glint360k 上训练的 ResNet34)。这表明存在种族偏见。
从人脸方位(Pose)可以看出,所有的人脸识别模型在人脸方位(Pose)上都存在明显的种族偏差。这意味着,当人脸的方位发生变化时,准确识别特定种族的人脸就会变得更加困难。
从照明角度看,模型 2(在 MS1MV3 上训练的 ResNet34)显示出较低的性能,尤其是对黑人和亚裔女性。这表明,在特定的光照条件下,准确识别这些种族和性别更为困难。在面部表情变化方面,所有人脸识别模型都显示白人男性的识别率最高,这意味着存在偏差。在年龄和性别方面也存在同样的偏差。从以上可以看出,本研究中使用的人脸识别模型存在明显的偏差。
摘要
本文提出了一种测量人脸识别算法偏差的新型实验方法,即生成具有独立属性的合成面部图像,并使用由多个人类注释者平均创建的身份标准。合成测试数据集是通过生成代表两种性别和三种种族的平衡 "原型 "来构建的,并在此基础上对人脸方向、光照、表情和年龄等属性进行系统修改。最终,构建了一个包含 12 000 对相同人脸和 36 000 对非相同人脸的数据集。
该方法的有效性还通过三个具有代表性的人脸识别模型进行了评估。结果显示,所有人脸识别模型都存在偏差,在某些模型中,白人男性和女性的准确率较高,而黑人女性的准确率较低。此外,结果还显示,人脸识别算法对面部朝向和面部表情的变化更为敏感,而年龄和光线虽然有影响,但相对较小。
与本文相关的类别