赶上最新的AI论文

人工智能能公平地理解你的面部表情吗?研究情绪识别中的种族偏见

人工智能能公平地理解你的面部表情吗?研究情绪识别中的种族偏见

情感识别

三个要点
✔️ 为了评估面部情绪识别技术中的种族偏见,我们研究了不同种族构成的训练数据如何影响模型的公平性
✔️ 通过使用多种种族构成的训练数据进行模拟,我们观察到,使用种族构成均衡的训练数据并不一定能提高预测
效果观察到准确率(F1 分数)和公平性并不一定会提高
✔️ 大型数据集突出表明,要解决面部情绪识别技术中的公平性问题,需要广泛的响应,而不仅仅是数据。

Addressing Racial Bias in Facial Emotion Recognition
written by Alex FanXingshuo XiaoPeter Washington
(Submitted on 9 Aug 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computers and Society (cs.CY)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

自深度学习取得突破性进展以来,面部情绪识别(FER)的性能也得到了快速提升。它被广泛应用于营销分析、机器人技术和健康信息分析等多个领域。然而,种族偏见仍然是这一领域面临的挑战。

本文利用各种不同种族比例的数据集研究了种族偏见的影响。结果表明,使用较小的、种族平衡的数据集可以改善公平性,提高情绪识别的准确性,这表现在 F1 分数平均提高了 27.2 分,人口均等度平均提高了 15.7 分。另一方面,在使用大型数据集时,我们发现仅仅对训练数据进行种族平衡并不能显著改善公平性。这说明,在大型数据集上,仅仅对训练数据进行种族平衡是不够的,还需要其他措施来均衡不同种族的情绪识别准确性。

数据集

本文使用了两个数据集来研究种族偏见:第一个数据集是儿童情感面部表情(CAFE)数据集,该数据集收集了儿童表达特定情感的图像;第二个数据集是 AffectNet,该数据集是公认的用于一般面部情感识别的大型数据集。第二个数据集是 AffectNet,这是一个广受认可的用于一般面部情绪识别的大型数据集。为了使两个数据集保持一致,对 AffectNet 数据进行了过滤,只保留与 CAFE 数据集相同的情绪标签(中性、悲伤、快乐、惊讶、愤怒、厌恶和恐惧)。此外,还进行了一些处理,如排除灰度图像,以获得更准确的种族估计。

最后,AffectNet 有 259280 张图像用于训练,1700 张用于验证,1484 张用于测试。此外,CAFE 数据集分别有 713、227 和 222 幅图像。

此外,为了估算种族,需要一个种族标签:在 CAFE 中,儿童自我报告他们的种族,并以此作为数据的标签。(例如,欧裔美国人或非裔美国人)。另一方面,由于 AffectNet 不包含种族信息,我们使用在被评为种族平衡的 FairFace 数据集上训练的模型来预测和标记 AffectNet 图像的种族。

下表显示了 CAFE 的种族分布情况。

下表显示了 AffectNet 所包含的种族分布情况。

不出所料,欧美面孔占 CAFE 和 AffectNet 训练数据分布的大部分,分别占各自数据集的 40.4% 和 67.3%。AffectNet 还包括中东人和东南亚人的数据,而 CAFE 中不包括这些人。在本研究中,我们考虑到这些额外的种族类别对模型学习的潜在影响,因此也将其纳入了实验。

验证方法

为了找出种族偏见对情绪识别的影响,我们选择了一个特定的种族(我们称之为 "模拟种族"),并改变了该种族在数据集中的比例。使用选定的图像对 ResNet-50 进行微调。在验证数据集上检查训练模型的性能,最终测试使用验证期间性能最佳的模型设置。

还有两种方法用于衡量模型识别情绪的公平程度:第一种是 "人口均等",评估所有种族识别情绪的比例是否相同。比例越接近 1,模型越公平;第二种是 "几率等同"。它评估所有种族识别出的正确和错误情绪的比例是否相同。

通过这些测试,我们正在研究在种族平衡数据上训练人工智能模型如何影响模型的公平性。

核查结果

对 CAFE 数据集进行的模拟显示,若干指标的结果符合预期。下图显示,随着数据集的种族构成变得更加均衡,F1 分数(红线)和人口均等度(绿线)分别平均提高了 +27.2% 和 +15.7 个百分点,并随着模拟种族比例的增加而趋于稳定。另一方面,在 Latio 模拟中,等效几率(紫线)并没有趋于稳定,而是呈上升趋势,而其他种族则呈随机或下降趋势。


此外,下图显示了每个种族和情绪标签的 F1 分数。从图中可以看出,中性(Neutral)、悲伤(Sad)和恐惧(Fear)的 F1 分数有显著提高。还可以看出,惊讶(Surprise)和厌恶(Disgust)是很难预测的情绪,并显示出随机或有限的趋势。


下图显示了基于 AffectNet 的小型数据集的模拟结果,以研究数据集规模的差异。平均而言,F1 得分为 15.2%,人口统计奇偶性为 0.286,明显低于 CAFE 模拟结果。有限的训练数据量和 AffectNet 野生图像情感分布的高变异性可能是造成这一差异的原因。总体趋势表明,当数据集的种族更加平衡时,模型的性能不会发生显著变化。


下图显示了基于 AffectNet 的模拟结果,为了研究数据集大小的差异,数据集比上一个更大。从图中也可以看出,即使数据集的种族更加平衡,F1 分数和公平性也没有提高,这表明种族平衡与测试性能之间没有明显的趋势。这表明,即使数据集中不同种族的平衡性得到了改善,在测试模型时,仍然缺乏直接证据表明这导致了性能的提高 

摘要

种族歧视是一个全球性问题。在某些情况下,面部识别技术的使用已经暂停,因为人们担心,根据种族不同,识别的准确性也不同,有可能使某些种族的人处于不利地位。同样,在面部情绪识别技术中,按种族进行识别的准确性必须是公平的,这样特定种族的人才不会处于不利地位。然而,这项技术的公平性仍然面临挑战。

本文使用 CAFE 和 AffectNet 数据集来研究不同种族在训练数据中的分布如何影响模型的识别性能及其在不同种族间的公平性。本文创建了具有不同种族构成的训练数据集,并评估了特定种族的情绪识别准确率(F1 分数),结果发现没有足够的改善。这表明,仅仅平衡数据集的种族构成并不一定能提高模型的性能和公平性。论文建议尝试其他方法,特别是在预处理阶段排除种族估计不准确的群体。面部情绪识别中的种族偏见仍然是一个问题,需要进一步改进。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们