AIはあなたの表情を公平に理解してくれるのか?感情認識に潜む人種バイアスを検証
3つの要点
✔️ 顔の感情認識技術における人種バイアスを評価するため、異なる人種構成の学習データがモデルの公平性にどのような影響を及ぼすのかを検証
✔️ 複数の人種構成の学習データを用いたシミュレーションを通じて、人種構成のバランスのとれた学習データを利用しても、予測精度(F1スコア)や公平性は必ずしも向上しないことを観察
✔️ 大規模データセットを用いた場合、顔の感情認識技術における公平性の問題に対処するために、データだけでなく、広範囲な対応の必要性を強調
Addressing Racial Bias in Facial Emotion Recognition
written by Alex Fan, Xingshuo Xiao, Peter Washington
(Submitted on 9 Aug 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computers and Society (cs.CY)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
近年、ディープラーニングのブレークスルー以降、顔の感情認識(Facial Emotion Recognition, FER)の性能も急速に向上しています。マーケティング分析、ロボット工学、健康情報分析など、多くの分野で利用されています。しかしながら、この分野においても、人種バイアスが課題になっています。
この論文では、人種の割合を変えた様々なデータセットを使って、人種バイアスの影響を調べています。結果として、人種のバランスが取れた小規模なデータセットを使用すると、公平性が向上し、感情認識の精度が高まることが分かりました。F1スコアが平均して27.2ポイント、デモグラフィックパリティが15.7ポイント向上していることでわかりました。一方で、大規模なデータセットを使用すると、学習データの人種バランスをとっただけでは公平性があまり改善されないことがわかりました。つまり、大規模なデータセットでは、学習データの人種バランスを考慮するだけでは不十分であり、異なる人種間で感情認識の精度を平等にするためには、他の対策も必要になることを示しています。
データセット
この論文では、人種バイアスを調べるために2つのデータセットを使っています。1つ目のデータセットはChild Affective Facial Expression(CAFE)データセットであり、特定の感情を表現している子供たちの画像を集めたものです。2つ目のデータセットはAffectNetで、一般的な顔の感情認識のための広く認識されている大規模データセットです。また、この2つのデータセットの整合性を持たせるために、AffectNetのデータをフィルタリングし、CAFEデータセットと同じ感情ラベル(中立、悲しみ、幸福、驚き、怒り、嫌悪、恐怖)のみを残すようにしています。また、より正確な人種推定をするために、グレースケールの画像は除外するなど、一定の処理を加えています。
最終的に、AffectNetは259,280枚の画像を学習用に、1,700枚を検証用に、1,484枚をテスト用としています。また、CAFEデータセットでは、それぞれ713枚、227枚、222枚としています。
さらに、人種を推定するためには、人種のラベルが必要です。CAFEでは、子供たちが自分の人種を自己申告しており、これをデータのラベルとして使用しています。(例:ヨーロッパ系アメリカ人やアフリカ系アメリカ人など)。一方で、AffectNetには人種の情報が含まれていないため、人種のバランスが取れていると評価されているFairFaceというデータセットを用いて学習したモデルを使い、AffectNetの画像の人種を予測し、ラベリングしています。
下表は、CAFEに含まれる人種分布です。
下表は、AffectNetに含まれる人種分布です。
予想通り、ヨーロッパ系アメリカ人の顔がCAFEとAffectNetの学習データの分布の大部分を占めており、それぞれのデータセットにおいて40.4%と67.3%を構成しています。また、AffectNetには、CAFEには含まれていない中東人と東南アジア人のデータも含まれています。今回は、これら追加の人種カテゴリがモデルの学習に潜在的な影響を与える可能性があると考え、これらのカテゴリも実験に含めています。
検証方法
人種バイアスが感情認識にどのような影響を与えるのかを調べるために、特定の人種をピックアップして(これを「シミュレートされた人種」と呼んでいます)、その人種がデータセット内で占める割合を変更しています。選んだ画像を使って、ResNet-50をファインチューニングしています。学習されたモデルの性能は、検証用のデータセットでチェックされ、最終的なテストでは、検証時に最も良い結果を出したモデルの設定を使っています。
また、モデルがどの程度公平に感情を認識しているかを測るために、2つの方法を用いています。1つ目は「デモグラフィックパリティ」です、これは、いずれの人種も同じ割合で感情を認識できているかを評価しています。比率が1に近いほど、モデルは公平と言えます。2つ目は「オッズの等価性」です。これは正しい感情と間違った感情を認識する割合が、全ての人種で平等であるかを評価しています。
これらの検証を通じて、人種バランスが整ったデータでAIモデルを学習した場合に、モデルの公平性にをどうな影響を与えるのか検証しています。
検証結果
CAFEデータセットで行われたシミュレーションでは、いくつかの指標で期待通りの結果を示しています。下図から、データセットの人種構成がバランスを取るにつれて、F1スコア(赤線)とデモグラフィックパリティ(緑線)が平均でそれぞれ+27.2%および+15.7%ポイント増加し、シミュレートされた人種の割合が増えていくと安定していることがわかります。一方で、等価オッズ比率(紫線)は安定せず、Latioのシミュレーションでは上昇傾向を示していますが、他の人種ではランダムまたは下降傾向を示していることがわかります。
さらに、下図では各人種と感情ラベルごとのF1スコアを示しています。図から分かるように、中立(Neutral)、悲しみ(Sad)、恐怖(Fear)では、F1スコアが大きく改善していることがわかります。また、驚き(Surprise)と嫌悪(Disgust)は予測が難しい感情であり、ランダムまたは限定的な傾向を示していることがわかります。
下図は、データセットの規模の違いを調べるため、AffectNetを元に小規模なデータセットを作成してシミュレーションした結果です。平均でF1スコアが15.2%、デモグラフィックパリティが0.286を達成していますが、CAFEのシミュレーションよりも明らかに低い性能を示しています。学習データサイズが限られていること、AffectNetのWildの画像からの感情分布のばらつきが大きいことが、この相違に影響を与えていると考えられます。全体的な傾向を見てみると、データセットの人種のバランスが整っても、モデルのパフォーマンスが有意に変わらないことを示しています。
下図は、データセットの規模の違いを調べるため、AffectNetを元に、先ほどよりも大規模なデータセットを作成してシミュレーションした結果です。こちらにおいても、データセットの人種バランスを整えても、F1スコアと公平性が増加しておらず、人種のバランスとテストパフォーマンスの間に明確な傾向が見られないことがわかります。これは、データセット内の異なる人種のバランスが改善されても、その結果としてモデルのテスト時の性能が向上するという直接的な証拠がまだ不足していることを示唆しています。
まとめ
人種差別は、世界的な問題です。顔認識技術では、人種によって認識精度が異なることで、特定の人種の人たちが不利益を被るリスクが懸念され、利用が停止された事例もあります。同様に、顔の感情を認識する技術においても、特定の人種の人たちが不利益を被ることがないよう、人種ごとの認識精度は公平であることが求められます。しかし、この技術にはまだ公平性に対する課題が残っています。
この論文では、CAFEデータセットとAffectNetデータセットを使用して、学習データの異なる人種の分布が、モデルの認識性能とその人種間の公平性にどのように影響するかを調査しています。様々な人種構成を持つ学習データセットを作成し、特定の人種に対する感情認識の精度(F1スコア)を評価した結果、十分な改善が見られないという結果になりました。データセットの人種バランスを整えただけでは、モデルのパフォーマンスとその公平性が必ずしも向上しないことを示しています。この論文では、特に人種の推定が不正確なグループを前処理段階で除外するなど、追加の手法を試すことを提案しています。顔の感情認識における人種バイアスは依然として問題であり、今後の更なる改善が求められています。
この記事に関するカテゴリー