AIと倫理：合成した顔画像のデータセットで顔認識アルゴリズムのバイアスの影響をより正確に分析！！

Face Recognition 2023年11月27日

3つの要点
✔️ 顔認識技術のバイアス問題：顔認識アルゴリズムが人口統計属性によるバイアスの影響を受けており、特定の人種や性別に不利益をもたらす可能性がある。
✔️ 従来のバイアスの評価方法の限界：従来の方法は、顔認識モデルの性能において、特定の属性との相関関係を示すが、因果関係は示せない。
✔️ 新しい評価手法の提案：顔生成ツールを使用して、特定の属性のみを変更し、他の属性は一定に保つことで、特定の属性が顔認識モデルの性能に与える影響を明確に示す。

Benchmarking Algorithmic Bias in Face Recognition: An Experimental Approach Using Synthetic Faces and Human Evaluation
written by Hao Liang, Pietro Perona, Guha Balakrishnan
(Submitted on 10 Aug 2023)
Comments: Accepted to ICCV2023
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

顔認識技術は、ディープラーニングの恩恵を受け、情報セキュリティ、犯罪捜査などに様々な分野で実用化されています。しかしながら、年齢、人種、性別などの人口統計属性によるバイアスが大きな問題になっています。顔認識技術が犯罪捜査に利用されている場合、特定の人種の人たちだけが不利益を被る事態となってしまいます。顔認識技術の研究において、顔認識モデルのバイアスの影響を正しく評価し、理解することは非常に重要です。

この論文では、顔認識モデルにおけるバイアスを、従来よりも正確に、因果関係を考慮して評価する新しい手法を提案しています。従来の評価方法では、自然環境（in the wild）で収集された顔画像のデータセットに依存していました。これらのデータセットにも人種や性別などの属性に関するラベルは含まれていますが、これらは単に画像の特徴とそれらの属性との間の相関関係を示しているに過ぎません。つまり、これらのラベルは、特定の属性が顔認識モデルの性能にどのような影響を与えるかという因果関係を明らかにするものではありません。例えば、「モデルAは、データセットXにおいて女性の顔と男性の顔で異なる精度を示す」というような結果は得られますが、これは特定の属性（この場合は性別）が精度にどのような影響を与えたかのという因果関係を明確にはできません。つまり、従来の評価方法では、この結果が性別のバイアスによるものなのか、それとも他の要因（例えば、データセット内の女性の画像がより高品質である、または、より多様であるなど）によるものなのかを、判断することができません。

この論文で提案する手法では、ニューラルネットワークに基づく顔生成ツールを使用して、顔画像を生成しています。これにより、影響を調べたい特定の属性（例えば、人種や性別）のみを変更し、他のすべての属性（例えば、年齢や表情）は一定に保つことができ、特定の属性が顔認識モデルの性能に与える影響するかを個別に明確に評価することができるようになります。結果として、「モデルAの精度は、性別と肌の色によって影響を受ける」といった、より具体的で因果的な結論を得ることができます。

提案手法

この論文で提案している手法は、顔認識システムのバイアスを測定するために、7つのステップから成り立っています。ステップ1では、GANの潜在空間をサンプリングして、ランダムな種となる顔画像を生成しています。これが顔認識モデルの学習に使用されるベースとなる顔画像です。ステップ2では、GANの潜在空間の特徴を制御して、下図のような人種と性別をもつプロトタイプとなる顔画像を生成しています。

なお、「WM」「WF」「BM」「BF」「AM」「AF」は、「White Male」「White Female」「Black Male」「Black Female」「East Asian Male」「East Asian Female」を表しています。ステップ3では、下図のように、各プロトタイプの顔画像に対して、顔の向き、年齢、表情、照明に関する変更を加えています。

ステップ4では、生成した顔画像から画像ペアを作成しています。ステップ5、6では、人間によるアノテーションが行われています。画像や画像ペアに対して、属性や画像ペアの類似度合いを評価します。Amazon SageMaker Ground Truthを使用して、9人からアノテーションを収集し、それらの平均をアノテーションの結果としています。合成した顔画像1枚に対して、肌のタイプ、性別、表情、年齢、偽物らしさを5点スケールでアノテーションしてもらっています。属性のアノテーションは、2,214人のアノテーターから123,000件のアノテーションを収集しています。さらに、作成した画像ペアに対して、一般的な人の視点で、顔のペアが同一人物/異なる人物に属することを確実にするために、画像ペアに対して、'likely same'（おそらく同一）、'possibly same'（たぶん同一）、'not sure'（不確か）、'possibly different'（たぶん異なる）、'likely different'（おそらく異なる）のいずれかを選んでもらっています。画像ペアのアノテーションには、1,905人のアノテーターから432,000件のアノテーションを収集しています。

アノテーションは下図のようなインターフェースで行われています。なお、この論文では、画像ペアに対する人間による評価（アノテーション）を「Human Consensus Identity Confidences」（HCICs）と呼んでいます。

最後に、ステップ7では、合成した顔画像のペアを顔認識モデルに入力し、HCICを使用してバイアスを評価しています。

実験

この論文で、Glint360kで学習したResNet-34、MS1MV3で学習したResNet-34、VGGFace2で学習したSFNet-20の3つの顔認識モデルを利用して、顔認識アルゴリズムのバイアス分析を行っています。これらのモデルはすべて自然環境（In the Wild）で収集された大規模データセットで学習され、それぞれのテストデータセットで高い精度を達成しています。これらのモデルに画像ペアを入力し、コサイン類似度を計算することで、モデルの性能を評価しています。

データセットは、上述した方法で、600人分の異なるIDから成る10,200枚の合成した顔画像によるデータセットを作成しています。そして、このデータセットを使用して、12,000組の同一人物の顔画像ペアと36,000組の同一人物ではない顔画像ペアを生成しています。

この論文では、最終的には、偽物らしさを表すスコアが0.8未満の画像ペアのみを使用しており、11,682組の同一人物な顔画像ペアと、35,406組の同一人物ではない顔画像ペアを用いています。なお、偽物らしさを表すスコアが0.8以上の顔画像の例は、下図のようになります。これらを除いたデータを利用しています。

まず、顔の特徴（属性）が変わると、顔認識モデルが顔画像ペアの類似度予測にどのような影響を与えるかを調べています。下図は、ResNet34（MS1MV3）モデルで顔の向きを変化させた場合の結果を示しています。

想定されるように、顔認識モデルは、同じプロトタイプ（同じ属性、同じ種画像）の顔画像同士で最も高い類似度となり、異なるロトタイプの顔画像同士で最も低い類似度を示しています。これは、顔認識モデルが顔画像のグループを識別していることを示しています。さらに、顔の角度が0度から離れるにつれて類似度が低下することがわかります。これは顔の向きが類似度の判断に影響を与えることを意味しています。さらに、上図の2番目と3番目を比較することで、顔認識モデルが顔を識別する際に、人口統計属性（例えば、人種や性別）を重要な情報として利用していることがわかります。このような分析は、顔認識モデルが異なる属性にどのように反応するかを理解するのに役立ち、顔認識モデルのバイアスや限界を明らかにするのに重要です。

また、下図は、顔認識モデルが異なる人口統計属性に対してどのようなバイアスを持っているかをFNMR（= False Non Match Rate）とFMR（= False Match Rate）で評価した結果を表しています。モデル1はVGGFace2で学習したSFNet、モデル2はMS1MV3で学習したResNet34、モデル3はGlint360kで学習したResNet34を表しています。なお、FNMRは、実際には同一人物の顔画像のペアを顔認識モデルが誤って同一人物ではないと判断した割合です。誤って異なる人物と判断されたペアの数を、実際には同一人物のペアの総数で割ることで算出されます。FMRは、実際には同一人物ではない顔画像のペアを、顔認識モデルが、誤って同一人物と判断した割合です。誤って同一人物と判断されたペアの数を、実際には異なる人物のペアの総数で割ることで算出されます。

上図を見ると、すべての顔認識モデルで、白人男性と白人女性において、最も低いエラー率を示していることがわかります。これは、これらの顔認識モデルが白人の顔を最も正確に認識するということを示しています。一方で、特にモデル3（Glint360kで学習したResNet34）で、黒人女性において、非常に悪い性能を示していることがわかります。これは人種バイアスが存在していることを示唆しています。

顔の向き（Pose）を見てみると、顔の向き（Pose）においてもすべての顔認識モデルで人種に対して顕著なバイアスを持っていることが分かります。これは、顔の向きが変わると、特定の人種の顔を正確に認識が難しくなることを意味しています。

照明（Lighting）を見てみると、モデル2（MS1MV3で学習したResNet34）で、特に黒人女性とアジア人女性において、低い性能を示しています。これは、ある照明の条件下では、これらの人種と性別においては、正確に識別するのが難しくなることを示しています。表情の変化に関しても、すべての顔認識モデルが白人男性において、最も高い性能を示しており、バイアスが存在することを意味します。年齢や性別についても同じようにバイアスが存在していることがわかります。以上からわかるように、今回使用した顔認識モデルには明確にバイアスが存在していることがわかります。

まとめ

この論文では、独立した属性を持つ合成した顔画像を生成し、複数人の人間のアノテーターによる平均で作成したIDの基準を用いて、顔認識アルゴリズムのバイアスを測定するという新しい実験的アプローチを提案しています。合成テストデータセットは、2つの性別と3つの人種を表すバランスの取れた「プロトタイプ」を生成し、そこから顔の向き、照明、表情、年齢といった属性を系統的に変更することで構築されています。最終的に、12,000組の同一人物の顔ペアと、36,000組の同一人物ではない顔ペアのデータセットを構築しています。

また、代表的な3つの顔認識モデルを用いて、この方法の妥当性を評価しています。その結果、すべての顔認識モデルにバイアスが存在し、白人の男性と女性に対する精度が高く、特定のモデルでは、黒人女性に対する精度が低いことを示しています。さらに、顔認識アルゴリズムは、顔の向きや表情の変化により影響を受けやすく、年齢や照明の影響は、影響を受けるものの、その影響は比較的少ないことを示しています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。