Vision TransformerにLandmark CNNを組み合わせた新しい顔認識モデル「part fViT」

Face Recognition 2023年04月07日

3つの要点
✔️ Vision Transformer（ViT）を顔認識に応用
✔️ ViTにLandmark CNNを導入したエンドツーエンドのモデルでさらに精度向上
✔️ 多くのベンチマークデータセットにおいて、従来の手法より高い性能を達成

Part-based Face Recognition with Vision Transformers
written by Zhonglin Sun, Georgios Tzimiropoulos
(Submitted on 30 Nov 2022)
Comments: Accepted to BMVC 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

　本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

　ここ数年、入出国審査や監視カメラなど多くのアプリケーションで顔認識の導入が進んでいます。顔認識に関する研究は、深層学習が注目されて以降、（a）CNNベースのアーキテクチャで顔画像を総合的に処理して特徴量を抽出するモデル（b）マージンベースの損失関数を適用するモデルが主流でした。特に、最近の研究は（b）の効果的なマージンベースの損失関数に焦点を当てられていました。

　この論文では、（a）の効果的な特徴抽出のための新しいアーキテクチャに焦点を当てています。2020年に発表されたVision Transformer（以下、ViT）が、画像認識においてCNNと比べて同等以上の性能を達成しており、注目を集めています。そこで、これまで主流であったCNNに代わってViTを利用して顔認識モデルを構築し、性能を検証しています。

　この論文では、2つのViTベースの顔認識モデルを構築しています。1つ目は、ViTをそのまま顔認識に応用したモデル「fViT」です。2つ目は、ViTの前段階に、Landmark CNNを導入したモデル「part fViT」です。これは、ViTが入力データとしてパッチを利用することから、Landmark CNNで顔の特徴的なパーツをパッチとして抽出し、ViTに入力することでより効果的な顔認識モデルが構築できないかを検討したものです。結果として、いずれのモデルも最先端の顔認識モデルと同等以上の性能を示しています。

「part fViT」とは

　part fViTのパイプラインは下図の通りです。ViTにLandmark CNNを導入したモデルです。まず顔画像をLandmark CNN（MobilenetV3）で処理し、Spatial Transformer Networks（STN）のグリッドサンプリングを適用することで識別可能な顔のパーツを抽出します。その後、顔のランドマーク座標と合わせて、ViTに入力し、特徴の抽出と認識が行います。CosFace損失関数を使ってエンドツーエンドで学習します。　なお、part fViTのベースとなるfViTは顔画像からそのままパッチを作成し、ViTに入力するモデルです。

最新の顔認識モデルとの性能比較

　下表では、MS1MV3で学習したモデルを既存の顔認識モデルと比較しています。テストデータは、LFW（Labeled Faces in the Wild）、CFP-FP（Celebrities in Frontal-Profile in the Wild ）、AgeDB-30、IJB-B（IARPA Janus Benchmark-B face challenge）、IJB-C（IARPA Janus Benchmark-C face challenge）、MegaFaceを利用しています。

　LFW（Labeled Faces in the Wild）を見ると、fViTとPart fViTはいずれも従来の顔認識モデルと同様に最高水準の精度を達成しています。また、顔の向きに対する堅牢性を評価するデータセットであるCFP-FP（Celebrities in Frontal-Profile in the Wild）を見ると、Part fViT-Bが99.21%の精度を達成し、VPL（Variation Prototype Learning）やArcface-challengeなどの他のSOTAを上回る性能を示しています。

　IJB-B（IARPA Janus Benchmark-B face challenge）とIJB-C（IARPA Janus Benchmark-C face challenge）においても同様の結果が見られます。Part fViTについて見ると、IJB-BとIJB-Cでそれぞれ96.11%、97.29%と従来の顔認識モデルよりも大幅に高い性能を示しています。fViTにおいてもIJB-BとIJB-Cでそれぞれ95.97%、97.21%と全体で2番目に高い性能を示しています。また、MegaFace/idを見ると、Part fViTが最も高い性能を示し、fViTも従来の顔認識モデルと同様に最高水準の精度を達成しています。

　ただし、経年変化に対する堅牢性を評価するデータセットであるAgeDB-30では、Part fViTとfViTの精度は、それぞれ98.29%、98.13%となっており、最高水準ではあるものの最も良い精度を達成することはできていないことがわかります。

　下図では、fViTとPart fViTによって生成されたアテンションマップを比較しています。1行目と2行目は、fViTによって生成されたアテンションマップであり、3行目と4行目は、Part fViTによって生成されたアテンションマップです。

　fViTとPart fViTのいずれの方法も、顔が正面を向いている画像と横を向いている画像の両方で、共に対応する領域を正確に注目しているため、顔の向きに対して良好に反応していることがわかります。また、fViT（1行目と 2行目）の6番目と7番目では、顔の特定の領域に焦点を合わせていないことがわかります。また、顔認識の際に、最も特徴的な領域としてよく知られている目の領域に焦点を当てたアテンションマップがfViTでは1つのみ（10番目）である一方で、Part fViTには複数存在している点は対照的です。顔認識の精度に影響していると考えられます。

　下図では、Part fViTでエンドツーエンドで学習された49個のランドマークを示しています。顔の向きに対してもある程度堅牢性があることがわかります。

Landmark CNNの違いによる影響

　Landmark CNNのモデルを追加、変更した場合に顔認識の精度がどのように変化するのかも検証しています。メインで使用したMobilenetV3の他に、より大規模なResNet50と比較しています。結果は下表の通りです。

　LFWについては、いずれの精度も十分に高く飽和しているため、あまり大きな差は見られません。CFP-FP、AgeDB、IJB-Cについては、Part fViTが平均的に高い精度を示しています。しかし、大規模なLandmark CNN（ResNet50）を適用するとに、CFP-FPやIJB-Cのように、精度が低下するケースもあることがわかります。この結果から、この論文では、より大規模なLandmark CNNの適用は、必ずしも精度向上に繋がるわけではないと結論付けています。

データ拡張の違いによる影響

　この論文では、学習データに適用するデータ拡張の違いが精度にどの程度影響を与えているかも調べています。下表から分かるように、適用するデータ拡張の手法を追加すると、より高い精度が得られることがわかります。

まとめ

　この論文では、画像認識でCNNと同等以上の高い精度を達成し、注目を集めているVision Transformer（ViT）を適用した新しい顔認識モデルを提案しています。一つは、ViTをそのまま顔認識用に学習するfViT、もう一つは、パッチで学習するViTの特徴を生かして顔画像からランドマークに応じたパッチを抽出して学習するPart fViTです。Part fViTはLandmark CNNとViTをエンドツーエンドで学習しています。いずれのモデルも従来の顔認識モデルと比べて、同等以上の精度を達成し、特にPart fViTで高い精度を達成しています。なお、この論文では、パッチ数が精度に与える影響なども検証しています。興味のある方は、ぜひAblation Studyiesもお読みください。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。