
新的人脸识别模型'部分fViT',它结合了视觉转化器和兰德马克CNN。
三个要点
✔️ Vision Transformer(ViT)应用于人脸识别
✔️ 端到端模型将Landmark CNN引入ViT,以进一步提高准确性
✔️ 在许多基准数据集上比以前的方法性能更高
Part-based Face Recognition with Vision Transformers
written by Zhonglin Sun, Georgios Tzimiropoulos
(Submitted on 30 Nov 2022)
Comments: Accepted to BMVC 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
在过去的几年里,人脸识别已经越来越多地在许多应用中实现,如移民和监控摄像头。关于人脸识别的研究主要有:(a)在基于CNN的架构中全面处理人脸图像和提取特征的模型(b)应用基于边际的损失函数的模型,因为深度学习已经引起了广泛的关注。特别是,最近的研究集中在(b)有效的基于边际的损失函数上。
本文重点讨论了(a)Vision Transformer(以下简称ViT)中有效提取特征的新架构,该架构于2020年公布,由于其在图像识别中实现了与CNN相当或更好的性能,因此引起了广泛关注。因此,我们使用ViT而不是一直以来的主流CNN来建立人脸识别模型并验证其性能。
本文构建了两个基于ViT的人脸识别模型:第一个是 "fViT",它直接将ViT应用于人脸识别;第二个是 "部分fViT",它引入了一个Landmark CNN作为ViT的初步步骤。由于ViT使用补丁作为输入数据,这个模型研究了是否可以通过使用Landmark CNN提取特征面部部分作为补丁并将其输入到ViT来构建一个更有效的人脸识别模型。结果显示,这两个模型的表现与最先进的人脸识别模型一样好,甚至更好。
什么是 "部分fViT"?
部分fViT管道如下图所示;它是一个将地标CNN引入ViT的模型。首先,用地标CNN(MobilenetV3)处理人脸图像,并通过应用空间变换器网络(STN)网格采样来提取可识别的面部部分。然后将其与面部地标坐标一起输入ViT,进行特征提取和识别,ViT使用CosFace损失函数进行端到端训练。 请注意,部分fViT所基于的fViT模型直接从面部图像中创建斑块,并将其输入到ViT。
与最新的人脸识别模型的性能比较。
下表将在MS1MV3上训练的模型与现有的人脸识别模型进行了比较。测试数据是LFW(野外标记的脸)、CFP-FP(野外正面轮廓的名人)、AgeDB-30、IJB-B(IARPA JanusBenchmark-B脸部挑战)、IJB-C(IARPA Janus Benchmark-C脸部挑战)和MegaFace。B)、IJB-C(IARPA Janus Benchmark-C脸部挑战)和MegaFace。
观察LFW(野外标记的面孔),fViT和部分fViT都达到了最高的准确率,就像传统的人脸识别模型一样。此外,在观察CFP-FP(Celebrities in Frontal-Profilein theWild)这个评估对人脸方向鲁棒性的数据集时,部分fViT-B达到了99.21%的准确率,而Variation Prototype(VPL)Learning)和Arcface-challenge,超过了其他SOTA。
在IJB-B(IARPA JanusBenchmark-B脸部挑战)和IJB-C(IARPA Janus Benchmark-C脸部挑战)中也有类似的结果。对于fViT,IJB-B和IJB-C也显示出总体上第二好的性能,分别为95.97%和97.21%。部分 fViT在查看MegaFace/id时 也显示出最高的性能,fViT和传统的人脸识别模型一样,取得了最高的准确率水平。
然而,在AgeDB-30这个评估对老化的鲁棒性的数据集中,Part fViT和fViT分别达到了98.29%和98.13%的准确率,表明它们没有达到最高但最好的准确率。
下图比较了fViT和部分fViT产生的注意图:第1和2行是fViT产生的注意图,第3和4行是部分fViT产生的注意图。
可以看出,fViT和部分fViT方法都对人脸的方向有很好的反应,因为它们都精确地聚焦在人脸朝前和朝侧的两张图像中的相应区域。还可以看到,在fViT的第六和第七行(第1和第2行),焦点不是在脸部的特定区域。还有一个对比是,在fViT(第10行)中只有一张注意力图集中在眼睛区域,众所周知,眼睛是人脸识别的最有特点的区域,而在部分fViT中有好几张。这被认为会影响人脸识别的准确性。
下图 显示了部分fViT中的49个地标的端到端训练。可以看出,对人脸方向有一定的稳健性。
不同地标CNN的影响。
它还研究了当Landmark CNN模型被添加或改变时,人脸识别的准确性如何变化。除了主要研究中使用的MobilenetV3之外,结果还与较大的ResNet50进行了比较。结果显示在下面的表格中。
对于LFW来说,差别不大,因为两者的准确率都足够饱和;对于CFP-FP、AgeDB和IJB-C来说,Part fViT的平均准确率更高。然而,当应用大型地标CNN(ResNet50)时,可以看到在某些情况下,如对CFP-FP和IJB-C,准确率有所下降。从这些结果中,本文得出结论:应用较大的地标CNN不一定能提高准确率。
不同数据扩展的影响。
本文还研究了应用于训练数据的不同数据扩展对准确性的影响程度。从下表中可以看出,应用更多的数据扩展方法可以获得更高的准确性。
摘要
本文通过应用视觉变换器(ViT)提出了一种新的人脸识别模型,ViT在图像识别中取得了很高的准确率,与CNN相当或更好,因此引起了人们的关注。一个是fViT,直接学习ViT进行人脸识别;另一个是Part fViT,根据地标从人脸图像中提取斑块,利用ViT的特征进行学习,在斑块中进行学习。 part fViT端到端学习地标CNN和ViTPart fViT是一个用于人脸识别的模型。两个模型都取得了与传统人脸识别模型相当或更好的准确性,其中PartfViT取得了特别高的准确性。本文还研究了斑块数量对准确率的影响。如果你有兴趣,也请阅读Ablation Studyies。
与本文相关的类别