赶上最新的AI论文

利用 MuDERI 数据集探索智障人士面部表情识别技术

利用 MuDERI 数据集探索智障人士面部表情识别技术

人脸识别

三个要点
✔️ 应用于智障 人士的重要性和挑战 :研究如何利用面部表情识别技术准确了解智障人士的情绪状态,提高他们的沟通能力
✔️ 训练和分析深度学习模型 :使用包含智障人士的特定数据集(MuDERI 数据集),测试其预测智障人士面部表情的准确性。

✔️ 对数据集和模型适用性的见解: 表明一般的 FER 数据集不能完全捕捉智障人士的特征,而且根据是否存在智障,模型重点关注的面部区域存在明显差异。建议需要解决缺乏智障人士专用数据的问题,以开发更准确的面部表情识别技术。

Evaluating the Feasibility of Standard Facial Expression Recognition in Individuals with Moderate to Severe Intellectual Disabilities
written by F. Xavier Gaya-MoreySilvia RamisJose M. Buades-RubioCristina Manresa-Yee
(Submitted on 22 Jan 2024)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

了解智障人士的情绪状态不仅对提高个人生活质量至关重要,而且对改善整个社会的沟通和相互理解也至关重要。在这一重要背景下,本文的研究重点是如何最大限度地发挥面部表情识别(FER)技术的潜力,以提高智障人士的沟通能力。深度学习在识别和分析面部表情方面取得了显著成果,本文利用深度学习,旨在回答以下关键问题。

  • 在标准数据集上训练的深度学习模型对智障人士有良好的表现吗?
  • 在包含智障人士的数据集上训练的模型能否准确预测其他智障人士的面部表情?
  • 智障人士和非智障人士的面部表情有异同吗?

为了回答这些问题,我们在不包括智障人士的数据集和包括智障人士的 MuDERI 数据集上对多个神经网络进行了训练和测试。最后,利用可解释人工智能(XAI)技术,每个模型都对其认为重要的面部区域进行了分析和可视化。

本文深入探讨了 FER 技术对智障人士的适用性,旨在为该领域做出创新性贡献。论文还提出了一套全面的方法论,包括数据集整理、模型选择、数据预处理和 XAI 策略概述。希望通过这项研究,该项目不仅能为提高智障人士的生活质量做出贡献,还能为 FER 技术的进一步发展做出贡献。

建议方法

本文使用的数据集由七个在面部表情识别(FER)中有用的数据集组成。其中四个基本数据集被广泛认为是 FER 研究的标准基准,它们是

  • 扩展 Cohn-Kanade (CK+):包含 123 名参与者的 593 个面部表情序列,标有七种面部表情(愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶)。
  • BU-4DFE:来自 101 名参与者的 606 个面部表情序列,每个参与者包含 6 个面部表情。
  • JAFFE:10 位日本女演员的 213 张面部图像,包括 6 种表情。
  • WSEFEP:来自 30 位参与者的 210 幅图像,包含与 JAFFE 数据集类似的七个面部表情类别。

此外,还增加了以下三个数据集

  • FEGA:包含 51 名参与者的多个面部表情序列,按面部表情、性别和年龄进行了多重标记。
  • FEtest:由 210 幅在自然条件下拍摄的正面图像组成。
  • MuDERI:由 12 名智障参与者组成的多模态数据集,包括用于激发积极和消极情绪的音像记录。

通过利用这样一个多样化的数据集,我们正在建立一个可在多种条件下使用的数据集,从基本面部表情到特殊条件下的情绪识别。这标志着 FER 技术的开发和评估向前迈出了重要一步。

研究还采用了 12 种不同的网络来提高面部表情识别(FER)的准确性。这些模型旨在通过将通用架构与专为 FER 设计的专有模型相结合,提高面部表情识别的准确性和效率。使用的模型包括

  • 总体结构
    • AlexNet、VGG16 和 VGG19:通过结合多个卷积层和池化层从图像中提取高级特征;VGG 模型以其简单而统一的架构而闻名。
    • ResNet50、ResNet101V2:深度网络结构,但使用残差连接来解决梯度消失问题。
    • InceptionV3:同时应用不同大小的滤波器,高效捕捉特征。
    • Xception:使用深度分割卷积来提高计算效率。
    • MobileNetV3:针对移动设备进行了优化,以低成本提供高性能。
    • EfficientNetV2:扩展策略可有效提高性能。
  • FER 专用架构
    • SilNet、SongNet 和 WeiNet:专为 FER 设计,提供相对简单但有效的面部表情识别。

这些模型在多个数据集上进行了训练和预处理,以捕捉面部表情的不同方面。通过比较这些不同架构的性能,研究小组研究了架构的选择如何影响面部表情识别任务的结果。

试验

本文共进行了三项实验:第一项是使用在 FER 数据集上训练的模型进行性能评估,以评估在为 FER 任务设计的扩展数据集上训练的各种网络是否能在 MuDERI 数据集上对智障人士的面部表情进行准确分类。目标是

下图显示了使用 FER-DB5 数据集进行训练的结果,作为实验结果的可视化展示。该图是一个方框图,显示了不同学习阶段的结果分布,中位数、四分位数间距和离群值都清晰可见。


在 MuDERI 数据集上,准确率低于 55%,各网络的结果都不尽如人意。另一方面,Google FEtest 对大多数网络的准确率都超过了 80%,除 ResNet50 外,所有网络的准确率都很高。结果还显示,与 FER-DB5 相比,在 MuDERI 上进行训练会导致更多的准确率差异。

第二个是使用 MuDERI 进行训练的结果。目的是评估在包含智障人士的数据集上训练的模型能否准确预测其他智障人士的面部表情。分析结果如下图所示。

在此探讨以下四种方案

  1. 分割用户群:MuDERI 的部分用户被分割开来,一部分用户接受培训,其余用户接受评估。
  2. 基于片段的分割:通过片段进行分割,确保模型在训练过程中 "看到 "所有用户,并充分接触到用户特定的面部表情。
  3. 基于片段的分割:与第二种情况类似,但有额外的限制。只有一个特定类别片段的用户的片段只包括在训练集中,而不包括在测试集中。这样做的目的是为了评估模型在训练过程中遇到同一用户和同一类别的其他片段时识别用户表现的能力。
  4. 基于帧的分区:按帧进行分区,将相邻帧随机归入训练测试的子集。

基于用户的分割结果最差,基于片段的分割达到了类似的准确度,而基于帧的分割准确度最高。就每个网络而言,学习场景不同,结果也不同,EfficientNetV2 在第一种场景中表现最好,但在第四种场景中表现较差;MobileNetV3 的结果始终最低,EfficientNetV3 在第一种场景中取得了相似的准确率,而 EfficientNetV3 在第四种场景中取得了相似的准确率。

第三个目标是评估智障人士和非智障人士在面部表情方面是否存在差异和相似之处;通过 FER-DB5 和 MuDERI 的训练和测试获得的热图已经制作完成并进行了分析。热图如下图所示。


比较第 1 行和第 2 行的 "悲伤"、"快乐 "和 "愤怒",第 3 行(MuDERI)的趋势有明显的不同。和反直觉相关。

摘要

本文重点探讨了面部表情识别(FER)技术在中重度智障人士身上的应用和挑战。具体来说,12 个深度学习模型在各种数据集上进行了训练,其中包括专门为智障人士配置的 MuDERI 数据集。这一过程利用了可解释人工智能(XAI)技术来研究模型如何解释不同用户群体的面部表情。

这项研究还表明,一般的 FER 数据集并不能充分反映智障人士的特征,因此直接针对这一用户群体进行学习是非常重要的。根据智障与否,模型重点关注的面部区域存在明显差异,更复杂和反直觉的区域与残疾人相关。

未来的研究可以解决缺乏专门针对智障人士的 FER 数据这一难题,并致力于开发更全面、更准确的面部表情识别技术。丰富这一领域的数据对于提高深度学习方法的有效性、使技术更公平、更易于使用至关重要。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们