训练数据的种族分布对人脸识别模型的偏差的影响。

人脸识别 23/03/2023

三个要点
✔️ 使用具有16种不同种族分布的训练数据分析对种族偏见的影响
✔️ 从不同角度分析造成种族偏见的因素，包括验证准确率、Carinski-Harabasz指数和UMAP
✔️ 希望这种理解能帮助建立/选择更合适的人脸识别数据集

The Impact of Racial Distribution in Training Data on Face Recognition Bias: A Closer Look
written by Manideep Kolla, Aravinth Savadamuthu
(Submitted on 26 Nov 2022)
Comments: WACVW 2023
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computers and Society (cs.CY); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

　近年来，面部识别/认证系统的种族偏见已经成为一个社会问题。一些研究报告称，面部识别/认证系统的种族偏见导致了对某些种族的人的不公平情况。例如，2020年1月，一名无辜的黑人男子在美国被错误地逮捕，因为面部识别系统错误地匹配了一名罪犯的脸。

　在过去的二十年里，面部识别/认证系统的准确性有了很大的提高，但种族和性别偏见的问题仍未得到解决。这被认为是一个严重的问题，因为它可能对人们的生活产生重大影响，如前面提到的错误逮捕。

　国家标准与技术研究所（NIST）对面部识别/认证模型进行了面部识别供应商测试（FRVT），分析了数百种算法和并报告了不同种族在准确性方面的差异。它发现，错误匹配率（FMR）因人口统计学的不同而有10到100的差异，而且FMR的差异远远高于错误非匹配率（FNMR）的差异，后者可能高达三倍。报告还指出，FMR在东非、西非和东亚最高，而在东欧最低。此外，中国开发者的一些人脸识别/识别模型也显示，与其他人脸识别/识别模型相比，东亚人的FMR更低。因此，造成人脸识别/识别模型偏差的原因可能有很多，包括统计学上的偏差和人为的偏差，而且偏差的类型也不同。

　由于大多数人脸识别/认证模型都依赖于大型数据集，因此有必要研究大型数据集的构成及其对准确性的影响，以便建立强大的人脸识别/认证模型，使其公平公正地对每个人发挥作用。

　因此，为了找到解决人脸识别/认证模型中偏见的线索，本文从不同的角度调查了对偏见的影响，包括训练数据的种族分布和聚类，种族内部和种族之间的相似性，以及人脸图像的质量。

实验

　本文用16个具有不同种族分布的不同训练数据集进行实验。这些训练数据是用两个数据集创建的：一个是BUPT-BalancedFace。这个数据集包含大约30万张脸部图像，每张7000张，在非洲人、亚洲人、高加索人和印度人之间平分，总共大约有125万张脸部图像。从这四种种族组合中创建了15个不同的数据集。

　另一个是MS1MV3。这个数据集包含大约91000人和大约500万张脸部图像。MS1MV3与BUPT-BalancedFace不同，它的种族分布更加倾斜，包括14.5%非洲人、6.6%亚洲人、76.3%白种人和2.6%印度人。这被作为一种类型的数据集使用。所有16种类型的训练数据在下表中的训练数据栏中进行了总结。

　使用的测试数据RacialFaces in-the-Wild（RFW）Racial Faces in-the-Wild（RFW）是研究人脸识别中种族偏见的测试集。有四个子集--非洲人、亚洲人、高加索人和印度人--每个子集包含大约3000个个体，有6000个图像对用于人脸识别。

研究数据的种族分布对偏见的影响。

　首先，使用Racial Faces in-the-Wild (RFW)对在16个不同训练数据集上训练的人脸识别模型评估了对非洲人（African）、亚洲人（Asian）、高加索人（Caucasian）和印度人（Indian）脸的识别精度。.下表中的准确度指标（单位：%）显示了每个种族针对测试数据的认证准确度。所有 "是指所有种族的测试数据的准确度。STD'是准确率的标准偏差。

　在一个种族上训练的模型的标准差（STD）最高，在所有种族（非洲人+亚洲人+白种人+印度人）上训练的模型的标准差最低。即使每个训练数据集的种族分布相似，其标准偏差也有很大不同。特别是，在非洲人脸图像上训练的模型的标准偏差很低，其次是印度人，而在高加索人（Caucasian）脸图像上训练的模型的标准偏差是最高的。在一个种族上训练和在三个种族上训练时都是如此。在对三个种族进行训练的模型中，对非洲和印度人脸图像进行训练的模型的标准偏差最低，其次是对非洲和亚洲人脸图像进行训练的模型。在高加索人脸图像上训练的模型，不包括非洲人脸图像，其标准偏差最高。

　此外，尽管MS1MV3是具有种族分布偏差的数据，但与在BUPT-BalancedFace上训练的模型相比，标准偏差没有明显的差异，后者的种族分布几乎没有偏差。这可能是因为MS1MV3是一个比BUPT-BalancedFace大得多的数据集，而且在MS1MV3上训练的模型比在BUPT-BalancedFace上训练的模型的总体错误率低。然而，虽然这表明在大数据集上训练的时候，种族之间的绝对准确率差异较小，但这并不表明偏见本身就比较小。

卡林斯基-哈拉巴什指数对偏见的影响。

　下表显示了在前面描述的16种训练数据上训练的模型的卡林斯基-哈拉巴什指数（CH），其中CH-All是包含在RFW中的四个种族数据的卡林斯基-哈拉巴什指数，CH-T是CH-T代表训练数据中包含的种族数据的卡林斯基-哈拉巴斯兹指数，CH-NT代表包含在RFW中但不在训练数据中的种族数据的卡林斯基-哈拉巴斯兹指数。如果只存在一个种族脸部图像，则不计算卡林斯基-哈拉巴什指数。另外，CH的值越高，说明聚类和偏差越大。

　CH值通过测量种族之间和种族内部的聚类距离来帮助理解人脸识别/认证模型中的偏差。从表中我们可以看出，与训练数据相同的种族数据的CH值很小，而不属于训练数据的种族数据的CH值很大。这也表明，CH值和标准差并没有单调的关系。

人脸图像质量对偏见的影响。

　为了了解人脸图像的质量是否会影响偏差，采用了人脸图像质量评估（FIQA）方法来计算训练和测试数据的人脸图像的质量得分。分数越高，说明人脸的质量越高。

下图显示了训练和测试数据中按种族划分的图像质量得分的分布。下表还显示了训练和测试数据的图像质量得分的中位数和平均值。

图和表显示，在训练和测试数据中，非洲（African）人脸质量最高，亚洲（Asian）图像质量最低。这与上述结果相关，即在非洲人脸图像上训练的模型的标准差明显小于其他种族的标准差。这可能是因为人脸识别/识别模型在高质量人脸图像上训练时比在低质量人脸图像上训练时更有效地学习面部特征，帮助它更好地识别其他种族。

面部特征对偏见的影响。

　从上表可以看出，当训练数据包含非洲人的面部图像时，非洲人的准确率很高，与其他三个种族相当。然而，如果训练数据不包括非洲人脸部图像，非洲人的准确率就很低，远远低于其他种族。当训练数据中不包括非洲人脸图像时，标准差（STD）会更高，因为非洲人的准确率显然更低。

　下图显示了所有种族未匹配的人脸对之间的平均余弦距离矩阵。从图中可以看出，这可以归因于非洲人与其他种族的相似度低得多，而其他种族至少有一个高度相似的种族。

决策阈值对偏差的影响。

　下图显示了当FMR=0.1%时，每个模型对测试数据（RFW）中的每个种族的余弦距离的决策阈值。所有在不同种族分布上训练的模型的决策阈值都显示出来。

　可以看出，用于训练的种族的决策阈值是最高的。这表明在某一特定种族上训练的模型在识别该种族时往往更有信心，因此有更高的决策阈值。这对所有的种族分布都是如此。同样，在图（d）中，在MS1MV3上训练的模型对白人显示出最高的决策阈值，而在BUPT-BalancedFace上训练的模型对所有种族显示出相当的决策阈值。这是因为MS1MV3数据集包含了过多的白人面孔。

摘要

　本文研究了训练数据的种族分布、不同种族的面部特征差异以及图像质量的差异如何影响人脸识别/识别模型的种族偏见。正如许多研究已经表明的那样，训练数据的种族分布的变化有很大的影响。对于训练数据中不包括的种族，人脸识别/认证的准确性当然会降低，但研究发现，与各自的种族分布相匹配并不一定能保证无偏见的人脸识别/认证模型。

　它表明，不仅训练数据的种族分布变化，而且图像质量和种族之间的面部外观差异也对偏见有很大影响。其他研究也关注了基于种族的面部图像聚类是否可以作为考察偏见的指标。此外，虽然本文没有讨论，但它使用UMAP投影来可视化人脸图像的聚类，并研究了性别在聚类中的作用。

本文提出了一系列关于在训练数据中寻找什么来了解人脸识别/认证模型的偏见以及种族分布的想法。希望本文能使人们更好地理解训练数据对人脸识别/识别模型中的偏见的影响，并有助于选择和建立更合适的数据集和人脸识别/识别算法。