野生自拍数据集（WSD），一个用于自拍图像的面部识别的数据集。

人脸识别 14/04/2023

三个要点
✔️ 用于自拍图像中人脸识别的新数据集 "WSD "
✔️ WSD建立了一个高度多样化的数据集，包括照明、视角、模糊和反射等真实场景
✔️ 在人脸检测和人脸识别任务中与现有数据集进行了比较验证。

WSD: Wild Selfie Dataset for Face Recognition in Selfie Images
written by Laxman Kumarapu, Shiv Ram Dubey, Snehasis Mukherjee, Parkhi Mohan, Sree Pragna Vinnakoti, Subhash Karthikeya
(Submitted on 14 Feb 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

　最近，人们越来越多地要求自拍，例如由于在线身份验证的广泛使用。然而，由于自拍是在离相机很近的地方拍摄的，脸部往往比一般的图像要大，而且效果往往是由处理应用程序添加的，这使得传统的数据集难以识别脸部。

　因此，本文提出了一个新的数据集--Wild Selfie Dataset（WSD），专门用于自拍图像中的人脸识别；与传统数据集不同，WSD考虑了真实场景和各种条件，如处理、失真、模糊和背光。

什么是野生自拍数据集（WSD）？

　野生自拍数据集（WSD）是一个使用自拍脸部图像进行脸部识别的数据集，包括45,424张脸部图像，来自42个年龄在18到31岁之间的人（24个女性和18个男性）。其中，40,862张是训练数据，4,562张是测试数据。

　这些图像是在非常广泛的条件下准备的，以重现现实生活中的自拍场景。下图是WSD的样本，其中包括带有AR滤镜的图像、反射的图像、模糊的图像、部分隐藏脸部的图像、不同光线条件的图像、不同比例的图像、不同面部表情的图像、不同排列的图像、不同相机视角的图像、不同长宽比的图像等。包括。

　每个人的平均图像数量为1,082，最小和最大的数量为518和2,634。下面的数字显示了训练数据（左）和测试数据（右）的每个主体的图像数量的分布。可以看出，训练数据和测试数据是以相同的分布方式分割的。

　数据集中收集的图像是由项目合作者提交的自拍的视频图像。自拍图像是用智能手机的前置或后置摄像头，使用自拍杆或类似工具拍摄的，或者用笔记本电脑的摄像头拍摄的。自拍视频是用智能手机的前置摄像头拍摄的。已与合作者达成协议，他们同意将图像用于非商业研究和开发目的。

　在收集自拍视频图像后，不支持的文件格式和损坏的视频图像被删除。此外，视频图像是通过使用多媒体框架FFmpeg分割帧来提取的。提取了各种数量的图像，每个图像都有不同的面部表情、照明条件和背景，所有数据都是图像格式。此外，还检查了图像的像素之间是否匹配，以消除重复的图像。

　接下来，对图像进行注释，以便用于人脸检测和人脸识别任务。首先，对于人脸检测，Dlib被用来检测人脸，并获得人脸边界盒的左上角和右下角的坐标。这些坐标被用来计算界线盒的宽度和高度，最终的界线盒注释包含左上角坐标（X，Y），宽度（W）和高度（H）。然而，由于其中包含了不包含任何面的界线盒，与其他界线盒严重重叠，或包含面的缺失，因此也进行了人工检查和纠正。此外，所有帮助收集数据的42人都被赋予了01至42的ID，以便在人脸识别任务中使用。

　最后，使用头部姿势估计来分析摄像机的运动，对数据分布进行检查。头部的方向是由脸部的位置和排列决定的。相机围绕X、Y和Z轴旋转。有三个相应的角度，分别是Yaw、Pitch和Roll。OpenCV和六个重要的地标（最左边的左眼、最右边的右眼、最左边的嘴、最右边的嘴、鼻尖中央和下巴中央）被用来估计图像中的头部方向。WSD的数据分布如下图所示。

与现有数据集的比较

　下表将WSD中包含的数据类型与现有数据集进行了比较，显示WSD是唯一包含模糊图像、镜面反射和带AR滤镜的自拍的数据集。与现有的数据集相比，它被认为是一个高度多样化的数据集。

　下表还比较了WSD和现有数据集的主体数量、图像数量、公共/私人和注释内容：WSD的主体和样本数量较少，但收集的是主体自己在无约束环境下（接近真实场景）拍摄的图像。另一方面，现有的数据集大多是从互联网上抓取的有限条件下的图像。

　WSD也是唯一一个事先获得研究使用同意的公开数据集。

人脸检测（FaceDetection）的性能比较。

　下表比较了使用YOLOv3和MTCNN在WSD和现有数据集上的人脸检测（mAP）性能；与FDDB和Wider Face相比，两个WSD模型都显示出更高的数值。

　这归因于WSD和现有数据集中图像性质的不同。自拍图像是在近距离拍摄的，因此图像中的人脸比例较大，这被认为比非自拍数据集更容易检测。大多数WSD由只有一张脸的图像组成，这也被认为是它们比现有的非自拍数据集更容易检测的一个原因。

　然而，当脸部不清晰可见或有强烈的背光时，它似乎不能很好地检测，如下图所示。研究人员还报告说，在含有AR过滤器的图像中存在许多错误的检测。特别是，当眼睛附近有障碍物时，检测精度似乎会下降。在自拍图像的人脸检测任务中，处理边界框包含人脸以外的物体的情况也是一个挑战。

人脸识别的性能比较

　下表比较了WSD和现有数据集上使用VGGFace、VGGFace2和FaceNet进行人脸识别的性能。下表显示，与现有数据集相比，WSD的性能明显较低。

这是由于 WSD由根据真实场景定制的数据组成，如照明条件、AR过滤器、屏蔽、比例变化、模糊和脸部方向的变化，这使得它比现有的数据集更加多样化。请注意，下图显示了一个所有人脸识别模型都识别失败的案例�

摘要

　本文提出了一个新的数据集--野生自拍数据集（WSD），用于使用自拍图像的人脸识别，而自拍图像正变得越来越普遍。与现有的数据集相比，它是一个具有高度多样性的数据集，因为它包含了考虑到真实场景的各种条件（AR过滤器、Mira反射、模糊、屏蔽、光照变化、缩放等）下的图像。

　WSD也被用来评估人脸检测和人脸识别的性能。对于人脸检测，使用了YOLOv3和MTCNN，并显示出很高的性能（mAP）。然而，在严重的光照变化和障碍物方面发现了挑战。另一方面，在人脸识别方面，使用VGGFace、VGGFace2和FaceNet对性能进行了评估，结果与现有的数据集相比，准确率明显降低。这是由于许多图像是在不受控制的条件下拍摄和处理的，考虑到了WSD的真实情况。

　这个数据集在未来可能有助于建立一个更准确的人脸识别模型，考虑到真实场景中的图像，如处理、相机抖动和背光，这些都被认为是自拍图像人脸识别中的挑战。