学習データの人種分布が顔認識モデルのバイアスに与える影響

Face Recognition 2023年03月23日

3つの要点
✔️ 16種類の異なる人種分布を持つ学習データを用いて、人種バイアスに与える影響を分析
✔️ Verification Accuracy、Calinski-Harabasz Index、UMAPなど様々な観点から人種バイアスの要因を分析
✔️ 人種バイアスの要因を理解することで、より適した顔認識向けデータセットの構築/選定に役立つことを期待

The Impact of Racial Distribution in Training Data on Face Recognition Bias: A Closer Look
written by Manideep Kolla, Aravinth Savadamuthu
(Submitted on 26 Nov 2022)
Comments: WACVW 2023
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computers and Society (cs.CY); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

　近年、顔認識/認証システムの人種バイアスが社会問題になっています。複数の研究が、顔認識/認証システムの人種バイアスによって、特定の人種の人たちに対して不公正な状況を招いていると報告しています。例えば、2020年1月、アメリカで顔認識システムが犯人の顔を誤って照合したために、無実の黒人男性を誤って逮捕する事件がありました。

　顔認識/認証システムは、この20年間、著しく精度が向上しましたが、人種や性別などのバイアスの問題は未だ解決されていません。これは、先ほどの誤認逮捕のように、人の人生に大きな影響を与えることもあり、重大な問題とされています。

　顔認識/認証モデルのベンダーテストFRVT（Face Recognition Vendor Test）を行なっているNIST（National Institute of Standards and Technology、米国国立標準技術研究所）は、何百ものアルゴリズムを分析し、人種による精度差を報告しています。それによると、人口統計によっては、False Match Rate（FMR）に10～100倍も差があり、FMRの差はFalse Non-Match rate（FNMR）の差よりもはるかに高く、最大で3倍もの差があるとしています。また、この報告では、東アフリカ、西アフリカ、東アジアでFMRが最も高く、東ヨーロッパでFMRが最も低いとされています。さらに、中国の開発者による多くの顔認識/認証モデルは、他の顔認識/認証モデルと比較して、東アジア人のFMRが低くくなることも示しています。このように、顔認識/認証モデルにバイアスが生じる原因は統計的バイアス、人的バイアスなどいくつも考えられ、バイアスの種類もさまざまです。

　顔認識/認証モデルの多くは大規模なデータセットに依存しているため、誰に対しても公平公正に機能する堅牢な顔認識/認証モデルを構築するためには、大規模データセットの構成とそれが精度に与える影響を調べる必要があります。

　そこで、この論文では、顔認識/認証モデルのバイアスを解決する手がかりを見つけるために、学習データの人種分布やクラスタリング、人種内および人種間の類似性、顔画像の品質などさまざまな観点から、バイアスに与える影響を調べています。

実験

　この論文では、人種分布の異なる16種類の学習データを使って実験しています。これらの学習データは2つのデータセットを使って作成されています。1つはBUPT-BalancedFaceです。このデータセットには、アフリカ人（African）、アジア人（Asian）、白人（Caucasian）、インド人（Indian）の顔画像が均等に各々7,000人、約300,000の顔画像が含まれており、合計で約125万枚の顔画像が含まれています。この4つの人種の組み合わせから15種類のデータセットを作成しています。

　もう1つはMS1MV3です。このデータセットには約91,000人、約500万枚の顔画像が含まれています。MS1MV3はBUPT-BalancedFaceと異なり、人種分布の偏りが大きく、アフリカ人が14.5%、アジア人が6.6%、白人が76.3%、インド人が2.6%で構成されています。これを1種類のデータセットとして使用しています。下表のTraining Dataの列にまとめられているものが全16種類の学習データです。

　テストデータには、Racial Faces in-theWild (RFW) を使用しています。Racial Faces in-the-Wild (RFW) は、顔認証における人種的バイアスを研究するためのテストセットです。アフリカ人（African）、アジア人（Asian）、白人（Caucasian）、インド人（Indian）の4つのサブセットがあり、それぞれに顔認証用の6,000 枚の画像ペアを持つ約3000人の人物が含まれています。

学習データの人種分布がバイアスに与える影響

　まず、16種類の学習データで学習した顔認証モデルに対して、Racial Faces in-the-Wild (RFW)を用いて、アフリカ人（African）、アジア人（Asian）、白人（Caucasian）、インド人（Indian）に対する認証精度を評価しています。下表のAccuracy Metrics（in %）は、各人種のテストデータに対する認証精度を示しています。「All」は、全ての人種を合わせたテストデータに対する認証精度です。また、「STD」は認証精度の標準偏差です。

　標準偏差（STD）は1つの人種で学習したモデルで最も高く、すべての人種で学習したモデル（African+Asian+Caucasian+Indian）で最も低くなることがわかります。また、各学習データの人種分布が似ていても、標準偏差は大きく異なっています。特に、アフリカ人の顔画像で学習したモデルの標準偏差は低く、次にインド人が続き、白人（Caucasian）の顔画像で学習したモデルの標準偏差が最も高くなっています。これは、1つの人種で学習した場合も3つの人種で学習した場合も当てはまっています。 3つの人種で学習したモデルのうち、アフリカ人とインド人の顔画像で学習したモデルの標準偏差が最も低く、次にアフリカ人とアジア人の顔画像で学習したモデルが続いています。アフリカ人の顔画像を含めず、白人の顔画像で学習したモデルの標準偏差が最も高くなっています。

　また、MS1MV3は人種分布に偏りがあるデータですが、人種分布にほとんど偏りがないBUPT-BalancedFaceで学習したモデルと比べて、標準偏差に大きな差がありません。これは、MS1MV3がBUPT-BalancedFaceよりも遥に大規模なデータセットであり、MS1MV3で学習したモデルがBUPT-BalancedFaceで学習したモデルよりも全体的にエラー率が低いためと考えられます。ただし、これは大規模なデータセットで学習すると人種間の精度の絶対差が小さくなることを示していますが、本質的にバイアスが小さくなることを示しているわけではありません。

Calinski-Harabasz Indexがバイアスに与える影響

　下表は、先ほどの16種類の学習データで学習したモデルに対するCalinski-Harabasz Index（CH）を示しています。CH-AllはRFWに含まれる4つの人種データに対するCalinski-Harabasz Index、CH-TはRFWに含まれる人種のうち、学習データに含まれる人種データに対するCalinski-Harabasz Index、CH-NTはRFWに含まれる人種のうち、学習データに含まれない人種データに対するCalinski-Harabasz Indexを表しています。1つの人種の顔画像しか存在しない場合、Calinski-Harabasz Indexは計算されません。また、CHの値が大きいほど、クラスタリングされ、バイアスが大きいことを示しています。

　CHの値は、人種間および人種内のクラスター距離を測定することによって顔認識/認証モデルのバイアスを理解するのに役立ちます。表から、学習データと同じ人種データではCHの値が小さく、学習データに含まれない人種データではCHの値が大きいことがわかります。また、CHの値と標準偏差は、単調な関係を持たないことがわかります。

顔画像の画質がバイアスに与える影響

　顔画像の画質がバイアスに影響を与えるかどうかを理解するために、顔の画質評価 (Face Image Quality Assessment、FIQA）という手法を使って、学習データとテストデータの顔画像の画質スコアを計算しています。スコアが高いほど、顔の品質が高くなります。

下図は、学習データとテストデータに含まれる人種ごとの画質スコアの分布を表しています。また、下表は学習データとテストデータの画質スコアの中央値と平均値を表しています。

図と表から、学習データとテストデータの両方で、アフリカ人（African）の顔質が最も高く、アジア人（Asian）の画質が最も低いことがわかります。これは、上述したアフリカ人の顔画像で学習したモデルの標準偏差が、他の人種よりも大幅に小さいという結果と相関しています。顔認識/認証モデルが低品質の顔画像で学習した場合よりも、高品質の顔画像で学習した場合の方が、顔の特徴を効率よく学習でき、他の人種をよりよく認識するのに役立つからと考えられます。

顔立ちがバイアスに与える影響

　前述の表に見られるように、学習データにアフリカ人の顔画像で含まれている場合、アフリカ人に対する精度は高く、他の3つの人種と同程度の精度を示しています。しかし、アフリカ人の顔画像が学習データに含まれていない場合、アフリカ人に対する精度は非常に低く、他の人種と比べてもはるかに低くなっています。学習データにアフリカ人の顔画像が含まれていない場合、アフリカ人に対する精度が明らかに低いため、標準偏差（STD）が高くなっています。

　下図は、すべての人種における、合致していない顔のペア間の平均余弦距離に関するマトリックスです。図からも見られるように、他の人種は少なくとも1つ類似性の高い人種が存在する一方で、アフリカ人は他の人種との類似性がはるかに低いという事実に起因すると考えられます。

決定閾値がバイアスに与える影響

　下図は、テストデータ（RFW）の各人種に対して、FMR＝0.1%となるときの各モデルのコサイン距離の決定閾値を示しています。異なる人種分布で学習したすべてのモデルの決定閾値を示しています。

　学習に使われた人種の決定閾値が最も高いことがわかります。これは、特定の人種で学習したモデルが、その人種を認識することに自信を持っている傾向があり、その結果、決定閾値が高いことを示していると言えます。これは、すべての人種分布に当てはまっています。同じように、図（d）では、MS1MV3で学習したモデルは、白人で最高の決定閾値を示していますが、BUPT-BalancedFaceで学習したモデルは、すべての人種で同等の決定閾値を示しています。これは、MS1MV3 データセットには不均衡に多くの白人の顔が含まれているためです。

まとめ

　この論文では、学習データの人種分布や人種ごとの顔立ちの違い、画質の違いが顔認識/認証モデルの人種バイアスにどのように影響するかを調べています。すでに多くの研究が示すように、学習データの人種分布のばらつきは大きく影響します。学習データに含まれていない人種に対しては、顔認識/認証の精度が低下することはもちろんですが、それぞれの人種分布を揃えても必ずしもバイアスのない顔認識/認証モデルを保証できないことがわかりました。

　学習データの人種分布のばらつきだけではなく、画質や人種ごとの顔立ちの違いもバイアスに大きく影響することを示しています。他にも、人種に基づく顔画像のクラスタリングが、バイアスを調べる指標となりうるかどうかも調べています。さらに、この記事では触れませんでしたが、UMAPプロジェクションを利用して顔画像のクラスタリングを視覚化し、クラスタリングにおける性別の役割についても調べています。

この論文は、顔認識/認証モデルのバイアスを理解するために、学習データにおいて、人種分布だけでなく、何を調べるべきなのか、さまざまなアイデアを提示しています。この論文をきっかけに、顔認識/認証モデルのバイアスに対する学習データの影響をよりよく理解し、より適したデータセットの選定や構築、顔認識/認証アルゴリズムの構築に役立つことが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。