顔認識システムの意思を読み解く：新たなアルゴリズム「S-RISE」とその評価指標

Face Recognition 2023年11月08日

3つの要点
✔️ サリエンシーマップに基づく説明可能な顔認識（XFR）のための新しい定義を提案
✔️ サリエンシーマップに基づくXFRを定量的に評価する新しい手法を提案
✔️ 画像ペアの類似度に基づく「S-RISE」というマップ生成アルゴリズムを提案し、顔をどのように識別しているかを視覚的に説明できることを実証

Explanation of Face Recognition via Saliency Maps
written by Yuhang Lu, Touradj Ebrahimi
(Submitted on 12 Apr 2023)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この約10年の間、ディープラーニングのブレイクスルーによって、画像分類やオブジェクト検出、顔認識などの画像認識のタスクで飛躍的な進歩がありました。顔認識技術も著しく性能が向上し、入国管理やセキュリティカメラなど多方面で応用されるようになり、世界的な注目を集めています。最近では、オンライン本人確認（eKYC）で利用したことがある方もいるかもしれません。しかし、これらの生体認証はプライバシーやデータ保護の権利を危険に晒す可能性があり、社会的に大きな懸念を引き起こしています。また、ディープラーニングベースのシステムは、出力過程が「ブラックボックス」であるため、解釈可能性に欠けることも問題視されています。このような懸念から顔認識技術の意思決定を理解し、それを説明できるようにすることは、顔認識技術が社会に受け入れられるために必要不可欠です。

ディープラーニングの「ブラックボックス」を解消しようと、説明可能な人工知能（XAI）に関する様々技術が提案されてきました。特に、画像認識関連のタスクでは、モデルの決定に関連する内部のCNN層や重要な画素を強調するために、様々なサリエンシーマップのアルゴリズムが導入されています。しかしながら、多くのアルゴリズムは、分類タスクでは優れた有用性を示すものの、内部モデル構造と出力形式が異なる他の画像認識タスクには直接適用できません。顔認識関連のタスクもそのうちの一つです。顔認識では、単にサリエンシーマップを生成するだけでなく、顔認識モデルが顔画像のペアをどのように識別するか、なぜ特定の画像のペアが他のペアよりも同一人物である可能性が高いと判断するのか、という解釈や説明が必要になります。

この論文では、顔認識にも適用可能な説明可能な顔認識（XFR）の新しい定義を提案しています。また、この新しい定義に従った「S-RISE」という、画像ペアの類似度を利用したサリエンシーマップの生成アルゴリズムも提案しています。

提案手法「S-RISE」

この論文では、サリエンシーマップに基づいた説明可能な顔認識（XFR）を構築するために、新しい定義を提案しています。前述の通り、顔認識では、1組の顔画像が同一人物であるかどうかを予測します。したがって、説明可能な顔認識システム（XFR）では、なぜモデルが「同一人物とみなしたのか」または「同一人物ではないとみなしたのか」について、視覚的に解釈できることが求められます。

過去にも同様の観点で研究された論文が報告されており、この論文では、Probe（照合対象の画像）、Mate（Probeと同じ人物の画像）、Non-mate（Probeと違う人物の画像）を利用して、顔の特定領域の相対的な重要度に着目して、顔認識の解釈可能性を調べています。説明可能な顔認識（XFR）は、ProbeとMateとのある領域の類似度を最大化すると同時に、同じ領域のProbeとNon-mateとの類似度を最小化する方法として定義しています。しかし、ProbeとMateの最も類似した領域が、ProbeとNon-mateの最も類似していない領域であるとは限りません。実際には、顔認識システムは3つの画像ではなく、2つの画像の類似度スコアと事前に定義された閾値を比較することで意思決定を行うため、3組の中で各ペアの画像に対する意思決定プロセスは独立しています。つまり、この定義では、顔認識の意思決定を説明可能にしているとはいえません。

そこで、この論文では、3組の画像のアイデアは参考にしつつ、一致するペアと一致しないペアを明確に区別する、より厳格な定義を提案しています。1組の[Probe、Mate、Non-mate]がそれぞれ顔認識システムに入力された場合、[Probe、Mate]のペアと[Probe、Non-mate]ペアに対応するサリエンシーマップを生成した上で、次の質問に答えるものでなければないとしています。

[Probe、Mate]の画像ペアのどの領域が顔認識システムにとって最も類似しているのか？
[Probe、Non-mate]の画像ペアのどの領域が顔認識システムにとって最も類似しているのか？
なぜ顔認識システムは[Probe、Mate]のペアが[Probe、Non-mate]のペアよりもより一致していると判断したのか？

従来のサリエンシーマップも有用ではあるものの、顔認識タスクに直接適用することはできません。例えば、Randomized Input Sampling for Explanation (RISE) は、分類器のカテゴリの出力確率を重みとして利用し、最終的なサリエンシーマップを集約することによって、分類モデルを説明します。しかし、顔認識システムの意思決定プロセスには、顔の特徴量の抽出と、2つ以上の画像間の類似度が関わっています。

そこで、この問題に対処するために、この論文では、マスクの重みとして類似度のスコアを利用し、顔認識システムの内部アーキテクチャや勾配にアクセスすることなくサリエンシーマップを提供するSimilarity-based RISEアルゴリズム（S-RISE）を提案しています（下図）。

画像のペア {𝑖𝑚𝑔𝐴, 𝑖𝑚𝑔𝐵} が与えられた場合、マスクの生成器はランダムに固定数のマスクを生成します。各マスクについて、それが入力画像（例えば 𝑖𝑚𝑔𝐴）に適用され、マスクされた 𝑖𝑚𝑔𝐴 とマスクされていない 𝑖𝑚𝑔𝐵 がそれぞれ顔認識モデルに入力され、顔の特徴量を抽出します。その後、対応するマスクの重みとしてコサイン類似度が計算されてます。全てのマスクに対して、同じ処理を繰り返した後、𝑖𝑚𝑔𝐴 に対する最終的なサリエンシーマップは、生成されたマスクの重み付きの組み合わせとして表されます。

さらに、サリエンシーマップの正確性も評価する必要があります。画像分類タスクや画像検索タスクでは、入力画像から顕著なピクセルを「挿入」または「削除」し、出力分類確率の変化を測定する方法があります。本論文では、これらの手法を顔認識のフレームワークに適合させています。モデルが最も重要と考える顔の領域を最小限のピクセル数で正確に強調できているかを評価しています。

ピクセルの「挿入」と「削除」を用いる方法では、それぞれピクセルを追加／削除し、2つの顔画像の類似度が閾値に達するまでの速さを測定します。より具体的には、削除プロセスは元の画像から始まり、最も顕著性の値が高いピクセルが順番に削除されて一定の値で置き換えられます。各ピクセルを削除した後、類似度スコアは事前定義された閾値以下になるまで再計算されます。逆に、挿入プロセスは一定の値から始まり、サリエンシーマップによってソートされた画像内の最も重要なピクセルが無地の画像に追加されます。ピクセルを一つ追加するたびに類似度のスコアは再計算され、閾値以上になるまで続けられます。画像から削除されたピクセルの数または画像に追加されたピクセルの数は、認識モデルが判断を変更するまで蓄積されます。性能は以下の指標で評価されます。

#Removed pixels / #All pixels
#Added pixels / #All pixels

実際には、画像からピクセルを削除すると元の分布が変わり、最終的には認識結果に影響を及ぼす可能性があります。したがって、上述の一定の値は特定の画像の平均値として設定してます。

実験結果

近年、サリエンシーマップを用いる方法が問題視されています。生成されたマップが実際にはモデルの意思決定プロセスやデータ生成の仕組みとは無関係な可能性があると指摘されており、信頼できる説明を提供しているかどうかが疑わしいとされています。そこで「モデルパラメータのランダム化テスト」という方法が提案されています。これは、ディープラーニングモデルを使う前に、モデルの重みをランダムに設定するというものです。これにより、サリエンシーマップを使用した方法が本当にモデルの決定メカニズムに基づいた説明を提供しているのかを評価することができます。この論文でも同様の方法でサリエンシーマップの有効性を評価しています。具体的には、他の視覚タスクに最適化された関係のないネットワークモデル（ResNet）のパラメータを使ってテストを行っています。もしこれらのランダムあるいは無関係なパラメータを使っても意味のあるヒートマップが生成されるならば、そのサリエンシーマップはモデルの意思決定プロセスやデータ生成の仕組みとは無関係なものであり、信頼できないといえます。

下図は、S-RISEアルゴリズムで生成されたサリエンシーマップに対して行われたテストの結果です。下図2行目はランダム化されたパラメータを持つCNNモデルに対して生成されたサリエンシーマップであり、下図3行目は通常の顔認識システムに対して生成されたものです。

下図2行目の結果から分かるように、ランダムなパラメータを利用した場合、意味のないサリエンシーマップを生成しており、提案されたS-RISEアルゴリズムが学習済みの顔認識モデルに基づいて意味のある解釈を生成する能力があることを示しているといえます。

下図は、S-RISEアルゴリズムによって生成されたサリエンシーマップの結果です。左の2列は、顔認識モデルが高い信頼度でペアの画像を正しく予測を行った場合のサリエンシーマップであり、右の2列はペアではない画像に対するサリエンシーマップです。

この図から分かるように、顔認識モデルが類似していると判断した画像ペアでは、その領域が適切に強調されていることがわかります。一方で、類似していない判断した画像ペアでは、類似領域を示しているものの、その強調度合いは弱いことがわかります。この結果から、顔認識モデルがなぜ一方が同一人物と判断し、もう一方が同一人物ではないと判断したのかを説明しているといえます。

さらに下図では、顔認識モデルが異なる人物を同一人物として誤認してしまう場合について調べた結果です。

顔認識システムが「Probe - Mate」のペアを高い信頼度で認識する一方で、「Probe - Nonmate」のペアに対しても、目や口といった顔の領域に比較的高い信頼度を割り当てていることを示しています。つまり、これは顔認識モデルがなぜ一致しない人物を誤って一致すると判断してしまうかの理由を説明しているといえます。

また、現在の顔認識モデルは、信頼度が低いにも関わらず、部分的に隠れた顔を識別できることが示されています。この場合、理想的なサリエンシーマップでは、隠れたピクセルに対しては低い顕著性値を示し、他の類似領域に対しては高い値を示すべきだと考えられます。先ほどの図では、サングラスによって顔の一部がマスクされた場合、目以外の口と鼻の領域に注目して判断していることもわかります。

最後に、S-RISEの定量評価の結果を示しています（下表）。ピクセルの「挿入」と「削除」を用いた方法に関する結果を報告しています。実験はLFWデータセットの小さなサブセットで実施されています。これらの指標は、顔認識モデルの判断を変更するために変更されたピクセルの割合を測定し、数値が小さいほど、サリエンシーマップの説明が正確と判断されます。下表は、異なるイテレーションでS-RISEを定量的に評価しており、イテレーションの数が少ないと説明性能が悪いことを示しています。

一方で、これらの指標は、およそ1,000イテレーションで徐々に収束し、サリエンシーマップが安定して正確になることがわかります（下図）。

まとめ

この論文では、説明可能な顔認識（XFR）の新しいフレームワークを提案しています。提案されたS-RISEアルゴリズムによって、顔認識システムがどのように同一人物であるか否かの決定を下しているかを詳しく説明するマップを作り出すことができ、さらに、これらのマップがどれだけ正確かを評価するかという、新しい基準も提案されています。これにより、今後、顔認識に使われるディープラーニングモデルの信頼性をより一般的に評価できる標準的な方法が確立され、顔認識システムの理解が深まり、その結果、安心して顔認識が利用できるようになることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。