シンプルな混合ネットワーク「MixNet」で、顔なりすまし検知の一般化性能を改善！

Face Recognition 2020年12月21日

3つの要点
✔️ 特定のなりすまし手法の検出に特化したサブネットワークを組み合わせたMixNetを提案
✔️ 複数のネットワークが補完するため、1つのネットワークで構築されるモデルよりも高い一般化性能を達成
✔️ 複数のネットワークを組み合わせるシンプルで拡張性が高いフレームワーク

MixNet for Generalized Face Presentation Attack Detection
written by Nilay Sanghvi, Sushant Kumar Singh, Akshay Agarwal, Mayank Vatsa, Richa Singh
(Submitted on 25 Oct 2020)
Comments: Accepted at ICPR2020
Subjects: Computer Vision and Pattern Recognition (cs.CV); Cryptography and Security (cs.CR)

概要

顔認証の導入が進んでいるものの、セキュリティの懸念もあります。そのうちの一つが「なりすまし（Spoofing）」です。

Spoofingの種類は大きく3つあります。1つ目はPrint Attackです。他人の顔画像を印刷して顔認証に利用する手口です。2つ目はReplay Attackです。スマホなどのデバイスで他人の画像や動画を表示して顔認証に利用する手口です。3つ目はMask Attackです。物理的に他人の3Dマスク（お面）を作成して顔認証に利用する手口です。

空港の入出国やオフィスの入退場で顔認証を使用する場合は、監視カメラや周囲の目があるため、これらのSpoofingが発生する可能性は低く、あまりイメージできないかもしれませんが、eKYCなどスマホでどこでも本人確認ができる用途では、周囲の目もないため、なりすましが発生する可能性が高くなります。今後、生体認証としての利便性を享受しながら、安全安心に使用するためには、このSpoofingへの対応が必要になります。

これまでもSpoofingの研究は行われており、高い性能も報告されています。しかし、堅牢性が問題になっています。つまり、いかに多様なSpoofing手法に対処できるモデルを構築するかが課題になっています。

しかし、これまでのアルゴリズムのほとんどは、バイナリ分類のタスクとして扱っており、なりすましか否かを判定することはできるものの、なりすましの本質的なパターンを学習することはできていません。さらに、Spoofingは種類によって特徴が異なるため、1つのネットワークでこれらの全ての特徴を学習し、高精度で検出するのは難しいのが現状です。

例えば、Print AttackとMask Attackはそれぞれ特徴が違うことは一目瞭然だと思います。Print Attackは紙でできているため、実際の顔に比べて、凹凸がなく、硬い表面で、光沢があります。一方で、Mask Attackは、より実際の顔に近く凹凸があり、紙よりも滑らかで肌に似た表面になっています。そこで、この論文では、特定のなりすまし検知に特化したバイナリ分類のサブネットワークを組み合わせるシンプルな方法でより堅牢性の高いAnti-spoofingモデルを構築しています。特に代表的なSpoofing手法であるPrint Attack、Replay Attack、Mask Attackについて検証しています。

この論文では、サブネットワークに全て同じネットワークを適用していますが、Print、Replay、Maskのそれぞれの最先端のネットワークを適用することも考えられ、拡張性の高いモデルといえます。また、このフレームワークは顔認証の分野だけでなく、虹彩や指紋などの他の生体認証にも拡張できると考えられます。

MixNetとは？

冒頭で紹介したように、これまでのアルゴリズムのほとんどは、Spoofingをバイナリ分類のタスクとして扱っており、GenuineとAttackのみを区別することを学習しています。そのため、なりすましの本質的なパターンを学習できていません。また、Spoofingは手法によって特徴が大きく異なっています。このため、既存のアルゴリズムのほとんどが未知のSpoofingに対して堅牢なモデルを構築することが難しいのが現状です。

そこで、この論文では、下図のようにGenuine/Attackの最終的な分類の前に、それぞれのSpoofing手法の検出に特化した中間ステップを追加することで、改善しています。この論文ではこれをMixNetと読んでいます。（注：MixConvを適用したモデルではありません。）この論文では、代表的なSpoofing手法であるPrint Attack、Replay Attack、Mask Attackに対処するために、3つのサブネットワークで構成しています。

MixNetでは、モデルに画像を入力すると、そのSpoofingを検出するサブネットワークは1に近いスコアを出力し、それ以外のネットワークは0に近いスコアを出力します。最後に、3つのサブネットワークが出力したスコアを組み合わせて、最終的なスコアを出力します。

続きを読むには

(7351文字画像13枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。