赶上最新的AI论文

新的人脸识别模型'部分fViT',它结合了视觉转化器和兰德马克CNN。

新的人脸识别模型'部分fViT',它结合了视觉转化器和兰德马克CNN。

人脸识别

三个要点
✔️ Vision Transformer(ViT)应用于人脸识别
✔️ 端到端模型将Landmark CNN引入ViT,以进一步提高准确性
✔️ 许多基准数据集上比以前的方法性能更高

Part-based Face Recognition with Vision Transformers
written by Zhonglin Sun, Georgios Tzimiropoulos
(Submitted on 30 Nov 2022)
Comments: Accepted to BMVC 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

 在过去的几年里,人脸识别已经越来越多地在许多应用中实现,如移民和监控摄像头关于人脸识别的研究主要有:(a)基于CNN的架构全面处理人脸图像和提取特征的模型(b)应用基于边际的损失函数的模型因为深度学习已经引起了广泛的关注。特别是,最近的研究集中在(b)有效的基于边际的损失函数上。

 本文重点讨论了(a)Vision Transformer(以下简称ViT中有效提取特征的新架构,该架构于2020年公布,由于其在图像识别中实现了与CNN相当或更好的性能,因此引起了广泛关注因此,我们使用ViT而不是一直以来的主流CNN来建立人脸识别模型并验证其性能。

 本文构建了两个基于ViT的人脸识别模型:第一个是 "fViT",它直接将ViT应用于人脸识别;第二个是 "部分fViT",它引入了一个Landmark CNN作为ViT的初步步骤。由于ViT使用补丁作为输入数据,这个模型研究了是否可以通过使用Landmark CNN提取特征面部部分作为补丁并将其输入到ViT来构建一个更有效的人脸识别模型结果显示,这两个模型的表现与最先进的人脸识别模型一样好,甚至更好

什么是 "部分fViT"?

 部分fViT管道如下图所示;它是一个将地标CNN引入ViT的模型。首先,地标CNN(MobilenetV3处理人脸图像,并通过应用空间变换器网络(STN网格采样来提取可识别的面部部分。然后将其与面部地标坐标一起输入ViT,进行特征提取和识别ViT使用CosFace损失函数进行端到端训练 请注意,部分fViT所基于的fViT模型直接从面部图像中创建斑块,并将其输入到ViT。

与最新的人脸识别模型的性能比较。

 下表将在MS1MV3上训练的模型与现有的人脸识别模型进行了比较测试数据LFW(野外标记的脸CFP-FP(野外正面轮廓名人)、AgeDB-30、IJB-B(IARPA JanusBenchmark-B脸部挑战)、IJB-C(IARPA Janus Benchmark-C脸部挑战)和MegaFace。B)、IJB-C(IARPA Janus Benchmark-C脸部挑战)MegaFace

 观察LFW(野外标记的面孔,fViT和部分fViT都达到了最高的准确率,就像传统的人脸识别模型一样。此外,在观察CFP-FP(Celebrities in Frontal-Profilein theWild这个评估对人脸方向鲁棒性的数据集时,部分fViT-B达到了99.21%的准确率,而Variation Prototype(VPL)Learning)和Arcface-challenge,超过了其他SOTA

 在
IJB-B(IARPA JanusBenchmark-B脸部挑战)和IJB-C(IARPA Janus Benchmark-C脸部挑战)中也有类似的结果对于fViT,IJB-B和IJB-C显示出总体上第二好的性能分别95.97%和97.21%部分 fViT在查看MegaFace/id显示出最高的性能,fViT传统的人脸识别模型一样,取得了最高的准确率水平。

 然而,在
AgeDB-30这个评估对老化的鲁棒性的数据集中Part fViT和fViT分别达到了98.29%和98.13%的准确率,表明它们没有达到最高但最好的准确率



 
下图比较了fViT和部分fViT产生的注意图:第1和2行是fViT产生的注意图,第3和4行是部分fViT产生的注意图

 可以看出fViT和部分fViT方法对人脸的方向有很好的反应,因为它们都精确地聚焦在人脸朝前和朝侧的两张图像中的相应区域还可以看到,在fViT的第六和第七行(第1和第2行),焦点不是在脸部的特定区域。还有一个对比是,fViT(第10行)中只有一张注意力图集中在眼睛区域,众所周知,眼睛人脸识别的最有特点的区域,而在部分fViT中有好几张这被认为会影响人脸识别的准确性。

 
下图 显示了部分fViT中的49个地标的端到端训练可以看出,对人脸方向有一定的稳健性。

不同地标CNN的影响。

 它还研究了当Landmark CNN模型被添加或改变时,人脸识别的准确性如何变化。除了主要研究中使用的MobilenetV3之外,结果还与较大的ResNet50进行了比较结果显示在下面的表格中。

 对于LFW来说,差别不大,因为两者的准确率都足够饱和;对于CFP-FP、AgeDB和IJB-C来说,Part fViT的平均准确率更高。然而,当应用大型地标CNN(ResNet50)时,可以看到在某些情况下,如对CFP-FP和IJB-C,准确率有所下降。从这些结果本文得出结论:应用较大的地标CNN不一定能提高准确率

不同数据扩展的影响。

 本文还研究了应用于训练数据的不同数据扩展对准确性的影响程度。从下表中可以看出,应用更多的数据扩展方法可以获得更高的准确性。

摘要

 本文通过应用视觉变换器(ViT)提出了一种新的人脸识别模型,ViT在图像识别中取得了很高的准确率,与CNN相当或更好,因此引起了人们的关注。一个是fViT,直接学习ViT进行人脸识别;另一个是Part fViT,根据地标从人脸图像中提取斑块,利用ViT的特征进行学习,在斑块中进行学习。 part fViT端到端学习地标CNN和ViTPart fViT是一个用于人脸识别的模型。两个模型都取得了与传统人脸识别模型相当或更好的准确性,其中PartfViT取得了特别高的准确性。本文还研究了斑块数量对准确率的影响。如果你有兴趣,请阅读Ablation Studyies

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们