オクルージョン顔認識の新しいベンチマーク「Webface-OCC」
3つの要点
✔️ オクルージョンを考慮した顔認識の公開データセットを提案
✔️ 従来と比べて、より実用条件に適したオクリュージョンのマッピング手法を導入
✔️ 再学習させたArcFaceでは通常の顔認識精度はほぼ低下させずに、マスク着用時の認識精度を大幅に改善
When Face Recognition Meets Occlusion: A New Benchmark
written by Baojin Huang, Zhongyuan Wang, Guangcheng Wang, Kui Jiang, Kangli Zeng, Zhen Han, Xin Tian, Yuhong Yang
(Submitted on 4 Mar 2021)
Comments: Accepted to ICASSP 2021.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
概要
2019年の顔認識元年から顔認識技術が至る所に導入されることになりました。しかし、2020年以降、世界的にコロナウイルス(COVID-19)の感染防止策として、マスクを着用することが一般的になっています。
既存の顔認識モデルでは、マスク着用などオクルージョン(遮蔽物)がある条件下では、認識精度が著しく低下することがわかっています。この大きな要因の一つとして、オクルージョンを考慮したデータセットが不足していることが挙げられます。
現状では、オクルージョンを考慮した顔認識向けの公開データセットはなく、これまで、マスクやサングラスを含むオクルージョンを考慮した顔認識モデルの研究は報告されているものの、いずれの研究も独自にデータセットを構築しています。
また、独自で構築されたデータセットも、実用条件とは大きく異なっており、十分とは言えない状況です。
例えば、(a)は2016年に報告されたMaskNetで使用されたデータセットのサンプルです。このデータセットでは、複数サイズの黒いボックスをランダムに適用した画像を使用しています。オクルージョンタイプは、黒いボックスのみであり、モデルの一般化性能は低くなると考えられます。また、実用条件を考えると不自然なオクルージョンです。
(b)は2019年に報告されたPDSN(Pairwise Differential Siamese Network)で3使用されたデータセットのサンプルです。ここでは、3つのオクルージョンタイプが用意されています。(a)と比べるとオクルージョンタイプは増えていますが、実用条件を考えるとオクルージョンの位置やサイズがやはり不自然です。
(c)は2020年に報告されたwIDで使用されたデータセットのサンプルです。ここでは、正方形のボックスをランダムに顔画像に適用しています。合成方法は、非常に簡素なものであり、やはり実用条件には適応していません。
この他にも、近年注目されているGANを用いた手法で、視覚的により自然なオクルージョン画像を生成することができますが、詳細情報が変更されてしまい、これらの画像で学習された顔認識モデルは、実用条件下でうまく機能しないことが多いとされています。
このように、既存で利用されているオクルージョンを考慮したデータセットは一応あるものの、そのほとんどが、実用条件下とは大きく異なるものになっている状況です。
そこで、この論文では、この状況を改善するために、新しくオクルージョンを考慮した公開データセット「Webface-OCC」を提供しています。
(d)がWebface-OCCのサンプルデータです。さまざまなオクルージョンタイプを含めた、被験者10,575人、顔画像804,704枚で構成されています。
「Webface-OCC」とは?
Webface-OCCは、顔認識でよく利用されているデータセットである「CASIA-Webface」をベースに構築しています。CASIA-Webfaceには、わずかにオクルージョンを持つデータが含まれており、CASIA-Webfaceで学習したモデルは、小さなオクルージョンを持つ顔認識においては高い性能を示しています。
Webface-OCCは、このオクルージョンを強化することで、オクルージョンに対する顔認識性能の向上に有用な新たなデータセットとして再構築したものです。
下図は、Webface-OCCのサンプルです。従来のように正方形のボックスでランダムに顔をマスキングせず、実用条件で直面することが多い、マスクやサングラスで顔をマスクキングしたデータを用意しています。また、さまざまなテクスチャや色、サイズを含んでいます。1行目が通常の顔画像で、2/3行目はオクルージョンされた顔画像です。
Webface-OCCでは、まず下図のような(a)テクスチャ/色、(b)マスク/サングラスの種類を複数用意しています。次に、マスキングされていない通常の顔画像から顔の特徴点を取得します。
最後に、顔の特徴点を利用して、マスクを口と鼻の周辺を覆う位置に、サングラスを目の周辺を覆うように、角度やサイズを調整しながらマッピングすることでオクルージョンを持つ画像を生成しています。
複数のオクルージョンタイプの組み合わせを適用することで、データ規模を大きくしています。最終的に、被験者10,575人、顔画像804,704枚を含むデータセットとなります。
また、データセットでは、各IDに対して、通常の顔画像とオクルージョンの顔画像が含まれており、その割合は均等になるようになっています(下図)。
実験
Webface-OCCで学習したモデルを2つのケースで評価しています。
1つは一般的な顔認識で利用されるLFW(Labeled Faces in the Wild)、CFP-FP(Celebrities in Frontal-Profile in the Wild)、AgeDB-30を使用したケース、もう一つは最近提案されたマスク着用向けの顔認識データセットLFW-mask、CFP-FP-mask、AgeDB-30-mask、RMFRD(Real-World Masked Face Dataset)を使用したケースです。LFW-mask、CFP-FP-mask、AgeDB-30-maskは、LFW、CFP-FP、AgeDB-30の顔画像にマスクを擬似的に適用したデータで、データのサイズなどは同じです。
LFWマスク、CFP-FPマスク、およびAgeDB-30マスクのデータセットは、元のデータセットにマスクを追加した結果であり、データのサイズとスケールは変更されません。
モデルは、6つの代表的な顔認識モデルCenterFace、SphereFace、FaceNet、CosFace、ArcFace、MaskNetを採用しています。このうち、FaceNetとArcFaceは、WiderFaceデータセットで再学習させたモデルも検証しています。
結果は下表の通りです。CFP-FPとAgeDB-30の場合、顔の向きと年齢差の影響があるため、LFWより精度がはるかに低くなっているものの、Webface-OCCで学習したモデルの精度は、オリジナルのモデルと比較して、約1%低いだけとなっており、一般の顔認識のデータセットに対して、全体的に高い性能を示しています。
また、再学習したモデル(FaceNet、ArcFace)は、オリジナルのモデルを大幅に上回っています。例えば、ArcFaceは、元のモデル比較して、4つのマスクされた顔認識データセット(LFW-mask、CFP-FP-mask、AgeDB-30-mask、RMFRD)において、それぞれ36.22%、29.14%、27.04%、15.03%も精度が上昇しています。
つまり、再学習したモデルは、一般的な顔認識データセットへの元の影響を保持したまま、オクルージョンの顔認識データセットでの性能のみを大幅に向上させることに成功しています。同時に、シミュレートされたオクルージョンの顔認識データセット(LFW-mask、CFP-FP-mask、AgeDB-30-mask)と比較して、実際のオクルージョンの顔認識データセット(RMFRD)の方が認識精度が低下していることがわかります。
これは、RMFRDでの未知のオクルージョンを正確に認識できなかったこと、被写体が公人であり、身元が判明しないように意図的に偽装されていることなどが考えられます。
まとめ
この論文は、オクルージョンを考慮した顔認識向けの公開データセットを提案しています。従来と異なり、顔の特徴点を利用したマッピングによって、より実用条件に近いオクルージョンを合成する手法を提案しています。また、この手法を既存のWebfaceデータセットに適用することで、大規模なオクルージョンを含む公開データセットを構築しています。
さらに、このデータセットで再学習したArcFaceではLFW-maskとRMFRDのデータセットでそれぞれ97.08%と78.25%と高い精度を達成しています。
従来の顔認識モデルでは、マスク着用に精度が著しく低下することがNISTなど多くの国際機関で報告されています。このWebface-OCCをきっかけに、今後、オクルージョン顔認識データセットの大規模化・多様化・高精度化が進むこと、顔認証モデルの精度が向上することが期待されます。
この記事に関するカテゴリー