多任务人脸 (MTF)，一种尊重隐私并可用于多种任务的新型人脸图像数据集

人脸识别 15/12/2023

三个要点
✔️ 提出一个符合 GDPR 标准的新面部图像数据集，可用于面部识别、种族、性别和年龄分类等多项任务。
✔️ 严格筛选和标记，确保数据的高质量。
✔️ 处理后的数据集显示出很高的性能，未来将扩展到面部匿名化等新任务。

Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks
written by Rami Haffar, David Sánchez, Josep Domingo-Ferrer
(Submitted on 20 Nov 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

面部图像是非常有用的数据，可用于各种分类任务，如面部识别、年龄估计、性别识别、情感分析和种族分类。另一方面，它们又是高度敏感的个人数据，隐私法规（如 GDPR）限制了出于研究目的收集和使用面部图像。因此，以前可公开获取的大量面部图像数据集已被私密化。

因此，合成人脸图像的数据集近年来备受关注。然而，目前很难实现与真实人脸图像相同的数据分布，其性能也不如使用真实人脸图像的模型。此外，大多数传统数据集都是为特定任务标记的，限制了其使用。

为了解决这些问题，本文提出了多任务人脸（MTF）数据集，这是一个包含真实人脸图像的数据集，旨在用于各种分类任务，包括人脸识别、种族、性别和年龄分类，同时消除法律限制。

本文介绍了数据集，并描述了数据收集和处理程序。论文还评估了 MTF 数据集用于各种分类任务时的性能。MTF 数据集可在https://github.com/RamiHaf/MTF_data_set 上获取。

什么是多任务人脸 (MTF) 数据集？

MTF 数据集的收集使用了《一般数据保护条例》（GDPR）第 9 条中的一项特殊豁免。这一例外允许数据主体（即数据所有者）收集和处理他们自己公开的个人数据。本数据集的重点是公众熟知的个人。这确保了数据集可以合法、安全地发布，同时避免了隐私问题。此外，本数据集的创建和使用已获得 SoBigData++ 道德与法律评估委员会（BOEL）的批准。

在收集数据时，我们使用 IMDB 网站来选择公众熟知的个人（名人）。为了增加多样性和全面性，我们纳入了美国人口普查局使用的四个种族群体--亚裔（华裔/韩裔）、亚裔（印度裔）、黑人和白人。在性别方面，我们纳入了同等数量的男性和女性，以减少性别偏见。同样，我们纳入了同等数量的年轻和年长名人，将 "年轻 "定义为 18-49 岁的名人，将 "年长 "定义为 50 岁及以上的名人。我们从每个种族群体中选取了相同数量的名人（老年男性 40 人、老年女性 40 人、年轻男性 40 人、年轻女性 40 人），共计 640 个 ID。

每个名人下载的图片数量不受限制，抓取一直持续到没有可用图片为止，最终收集到 117 114 张图片。在数据处理过程中，第一步是使用 Haar Cascade 自动检测和裁剪图像中的面部区域。

此外，每张裁剪过的图片都由三名评估员进行目测检查，以确保每张图片都包含假定的名人面部图像。由于原始图像来自公共领域和知识共享（Creative Commons），其中还包含一些艺术品和设计的随机图像；Haar Cascade 从这些图像中错误地检测出了面部区域，因此排除了那些不合适的图像。因此，数据集的大小减少到 42,575 张图片。不属于正确 ID 的面部图像也被排除在外。这样，数据集的大小就减少到了 6453 张图像。

此外，脸部部分被隐藏（如太阳镜或手遮住嘴巴或眼睛）、手绘、人为修改或由人工智能算法生成的图像也不包括在内。此外，因化妆而导致脸部看起来不自然的图片也被删除。这样，数据集的大小就减少到了 5984 张图片。

此外，为了降低数据泄露的风险，避免人工智能模型的训练产生不必要的额外成本，重复或相似的图像（如系列镜头）被排除在数据集之外，从而使数据集的规模达到 5,763 张图像。在此基础上，专家们还排除了更多不符合假设任务标准的图像。

这些过滤过程最终将数据集从 117,114 幅图像大幅缩减至 5,246 幅图像（仅为原始数据的 4.47%）。剩余的人脸图像都被调整为 1024 x 1024 像素的统一分辨率。

在对人脸图像进行裁剪和过滤，使其仅具有一定质量水平之后，就可以进行标记。在人脸识别的标注中，图像被标注为 240 位名人中的一位。在标记种族分类时，图像被标记为四个类别之一：亚洲人（中国人/韩国人）、亚洲人（印度人）、黑人和白人。性别分类标签将他们标为男性或女性。年龄分类标签会将他们归为年轻或年老两个类别之一。

专家们会进行两方面的验证，以确保这些标签被正确标注。首先，每位专家单独检查整个数据集的标签，然后专家们共同验证整个数据集。这一过程可确保数据集中的每张图像都能为面部识别、种族、性别和年龄任务贴上适当的标签。

下图显示了从收集到的原始图像中裁剪人脸和分配最终标签的步骤顺序。

最后，MTF 数据集的结构如下表所示。

人脸识别（Face Recognition）是对每位名人进行基于姓名的分类任务，包括 240 位名人，涵盖数据集中的所有图像。种族分类（Race Classification）是一项包含四个标签的分类任务，其中亚洲人（中国人/韩国人）和白人占多数，亚洲人（印度人）和黑人占少数。性别分类（Gender Classification）是一项包含男性和女性标签的二元分类任务，男性和女性标签之间相对平衡，男性名人略多，但男性和女性名人的比例几乎相等。年龄分类是一项在年轻人和老年人之间进行二元分类的任务，与性别分类任务相比，年龄分类的数据分布非常不平衡。年轻 "类别包含许多名人和图片，而 "年长 "类别只属于 50 位名人，只包含 514 张图片。

这些任务的分布不平衡是由于世界不同地区的名人发布图片和版权许可的频率不同，年轻名人和年长名人发布图片的频率不同，以及年长名人倾向于拥有更多年轻时的图片。因此，MTF 数据集在所有任务和标签中的图片数量并不相等，这也是最初的目标，但这种不平衡的分布反映了网上可用数据的实际状况。

试验

本节介绍人脸识别任务的性能评估结果。结果如下表所示。任务包含 240 个标签。

不出所料，所有预训练模型的性能都优于 Randam Guess。所有预训练模型的性能也都优于 "从零开始 "训练的模型，其中 ConvNeXT 的性能最好。

接下来将介绍建立数据集时数据处理的有效性：MTF 数据集经过人工处理，以去除低质量和不合适的图像。为了测试这种有效性，我们在未处理数据集（未经处理的原始数据集/从互联网上收集的大量图像）和 MTF 数据集（人工处理的 MTF 数据集）上训练了相同的深度学习模型（ConvNeXT），并在四项任务中对其性能进行了比较。结果如下表所示结果如下表所示

从表中可以看出，在经过处理的 MTF 数据集上训练的模型比在原始数据集上训练的模型表现要好得多。例如，在人脸识别任务中，在处理过的数据集上训练的模型达到了约 80% 的准确率，而在原始数据集上只有 10% 的准确率。实验还表明，高质量数据比大量数据更重要。如果数据中包含大量噪声，那么在大量数据上进行训练就会导致性能低下。

在训练机器学习模型时，强调了数据质量（尤其是经过精确人工处理的数据）的重要性。好的数据可以大大提高模型的性能，因此质量比数量更重要。

摘要

本文提出了一个多任务人脸（MTF）图像数据集，这是一个可用于四项任务的人脸图像数据集：人脸识别、种族分类、性别分类和年龄分类。该数据集的特点是隐私友好，符合法律要求（特别是 GDPR）。该数据集包含名人面孔图像，这些图像要么是公开的，要么是有许可的，允许修改和商业使用。此外，该单一数据集可用于面部识别、种族、性别和年龄等多个分类任务。

我们还在 MTF 数据集上评估了五个深度学习模型的性能。与从头开始训练的模型相比，预训练权重的模型显示出更好的结果。其中，最近提出的一个名为 ConvNeXT 的模型在所有四项任务中表现最佳。

如何处理数据集的重要性也已得到证实。在经过处理的数据集上训练出来的模型比在未经处理的原始数据上训练出来的模型要好得多。

最后，本文中的团队表示，他们计划将来将此数据集用于其他任务，如面部匿名化。我们希望这将开发出一个非常有用的数据集，并且现在符合隐私法规。