新的人脸识别模型'部分fViT'，它结合了视觉转化器和兰德马克CNN。

人脸识别 07/04/2023

三个要点
✔️ Vision Transformer（ViT）应用于人脸识别
✔️ 端到端模型将Landmark CNN引入ViT，以进一步提高准确性
✔️ 在许多基准数据集上比以前的方法性能更高

Part-based Face Recognition with Vision Transformers
written by Zhonglin Sun, Georgios Tzimiropoulos
(Submitted on 30 Nov 2022)
Comments: Accepted to BMVC 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

　在过去的几年里，人脸识别已经越来越多地在许多应用中实现，如移民和监控摄像头。关于人脸识别的研究主要有：（a）在基于CNN的架构中全面处理人脸图像和提取特征的模型（b）应用基于边际的损失函数的模型，因为深度学习已经引起了广泛的关注。特别是，最近的研究集中在（b）有效的基于边际的损失函数上。

　本文重点讨论了（a）Vision Transformer（以下简称ViT）中有效提取特征的新架构，该架构于2020年公布，由于其在图像识别中实现了与CNN相当或更好的性能，因此引起了广泛关注。因此，我们使用ViT而不是一直以来的主流CNN来建立人脸识别模型并验证其性能。

　本文构建了两个基于ViT的人脸识别模型：第一个是 "fViT"，它直接将ViT应用于人脸识别；第二个是 "部分fViT"，它引入了一个Landmark CNN作为ViT的初步步骤。由于ViT使用补丁作为输入数据，这个模型研究了是否可以通过使用Landmark CNN提取特征面部部分作为补丁并将其输入到ViT来构建一个更有效的人脸识别模型。结果显示，这两个模型的表现与最先进的人脸识别模型一样好，甚至更好。

什么是 "部分fViT"？

　部分fViT管道如下图所示；它是一个将地标CNN引入ViT的模型。首先，用地标CNN（MobilenetV3）处理人脸图像，并通过应用空间变换器网络（STN）网格采样来提取可识别的面部部分。然后将其与面部地标坐标一起输入ViT，进行特征提取和识别，ViT使用CosFace损失函数进行端到端训练。　请注意，部分fViT所基于的fViT模型直接从面部图像中创建斑块，并将其输入到ViT。

与最新的人脸识别模型的性能比较。

　下表将在MS1MV3上训练的模型与现有的人脸识别模型进行了比较。测试数据是LFW（野外标记的脸）、CFP-FP（野外正面轮廓的名人）、AgeDB-30、IJB-B（IARPA JanusBenchmark-B脸部挑战）、IJB-C（IARPA Janus Benchmark-C脸部挑战）和MegaFace。B）、IJB-C（IARPA Janus Benchmark-C脸部挑战）和MegaFace。

　观察LFW（野外标记的面孔），fViT和部分fViT都达到了最高的准确率，就像传统的人脸识别模型一样。此外，在观察CFP-FP（Celebrities in Frontal-Profilein theWild）这个评估对人脸方向鲁棒性的数据集时，部分fViT-B达到了99.21%的准确率，而Variation Prototype（VPL）Learning）和Arcface-challenge，超过了其他SOTA。

　在IJB-B（IARPA JanusBenchmark-B脸部挑战）和IJB-C（IARPA Janus Benchmark-C脸部挑战）中也有类似的结果。对于fViT，IJB-B和IJB-C也显示出总体上第二好的性能，分别为95.97%和97.21%。部分 fViT在查看MegaFace/id时也显示出最高的性能，fViT和传统的人脸识别模型一样，取得了最高的准确率水平。

　然而，在AgeDB-30这个评估对老化的鲁棒性的数据集中，Part fViT和fViT分别达到了98.29%和98.13%的准确率，表明它们没有达到最高但最好的准确率。

　下图比较了fViT和部分fViT产生的注意图：第1和2行是fViT产生的注意图，第3和4行是部分fViT产生的注意图。

　可以看出，fViT和部分fViT方法都对人脸的方向有很好的反应，因为它们都精确地聚焦在人脸朝前和朝侧的两张图像中的相应区域。还可以看到，在fViT的第六和第七行（第1和第2行），焦点不是在脸部的特定区域。还有一个对比是，在fViT（第10行）中只有一张注意力图集中在眼睛区域，众所周知，眼睛是人脸识别的最有特点的区域，而在部分fViT中有好几张。这被认为会影响人脸识别的准确性。

　下图显示了部分fViT中的49个地标的端到端训练。可以看出，对人脸方向有一定的稳健性。

不同地标CNN的影响。

　它还研究了当Landmark CNN模型被添加或改变时，人脸识别的准确性如何变化。除了主要研究中使用的MobilenetV3之外，结果还与较大的ResNet50进行了比较。结果显示在下面的表格中。

　对于LFW来说，差别不大，因为两者的准确率都足够饱和；对于CFP-FP、AgeDB和IJB-C来说，Part fViT的平均准确率更高。然而，当应用大型地标CNN（ResNet50）时，可以看到在某些情况下，如对CFP-FP和IJB-C，准确率有所下降。从这些结果中，本文得出结论：应用较大的地标CNN不一定能提高准确率。

不同数据扩展的影响。

　本文还研究了应用于训练数据的不同数据扩展对准确性的影响程度。从下表中可以看出，应用更多的数据扩展方法可以获得更高的准确性。

摘要

　本文通过应用视觉变换器（ViT）提出了一种新的人脸识别模型，ViT在图像识别中取得了很高的准确率，与CNN相当或更好，因此引起了人们的关注。一个是fViT，直接学习ViT进行人脸识别；另一个是Part fViT，根据地标从人脸图像中提取斑块，利用ViT的特征进行学习，在斑块中进行学习。 part fViT端到端学习地标CNN和ViTPart fViT是一个用于人脸识别的模型。两个模型都取得了与传统人脸识别模型相当或更好的准确性，其中PartfViT取得了特别高的准确性。本文还研究了斑块数量对准确率的影响。如果你有兴趣，也请阅读Ablation Studyies。