最新AI論文をキャッチアップ

子供向け顔認識技術を改善する、合成画像による新データセット「HDA-SynChildFaces」の可能性

子供向け顔認識技術を改善する、合成画像による新データセット「HDA-SynChildFaces」の可能性

Face Recognition

3つの要点
✔️ 様々な年齢の子供の顔画像を合成し、新しいデータセット「HDA-SynChildFaces」を作成。
✔️ 新しいデータセットでMagFace、ArcFace、COTSの性能を検証すると、顔の年齢が上がるほど「異なる人」と判断するスコアが高くなり、性能が低下することが示された。
✔️ HDA-SynChildFacesでMagFace、ArcFace、COTSの性能を検証すると、女性や黒人、アジア人の方が認識エラーが高い傾向があり、子供の顔認識においても同様の傾向があることが示された。

Child Face Recognition at Scale: Synthetic Data Generation and Performance Benchmark
written by Magnus FalkenbergAnders Bensen OttsenMathias IbsenChristian Rathgeb
(Submitted on 23 Apr 2023)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

今回紹介する論文は、子供向けの顔認識モデルの性能向上を目指し、合成した子供の顔データセットを提供しています。ここ数年に渡り、顔認識システムは入出国管理や犯罪捜査などさまざまな領域で実用されるようになっていますが、子供の顔認識は、これまで十分に注目されてきませんでした。

今、子供向けの顔認識システムの重要性が度々議論されるようになってきます。例えば、警察では、誘拐または迷子の子供を見つけるために使用することができます。また、最近では、児童性的虐待の素材(CSAM)が大きな問題になっています。2019年に1,700万件の報告があったのに対して、2021年には2,930万件の報告があったとされ、被害が急増しています。これらは非常に膨大なデータ量であり、人手で被害者の特定など、処理するには限界があります。もし子供向けの顔認識システムが導入されれば、押収されたCSAMを分析し、被害者を迅速かつ正確に認識することができます。

しかしながら、顔認識モデルの構築のためには、一般的に大量の学習データが必要であり、そのデータの取得と利用にはプライバシーや人権といった問題が絡んでいます。特に子供たちは保護されるべき対象であり、子供の顔画像のデータを集めることは非常に難しいのが現状です。

そこで、今回紹介する論文では、はじめに学習データが十分にある大人の顔データを合成し、そこから子供の顔データを合成する新たな手法を提案しています。これによって、実際の子供の顔データを集めることなく、子供の顔認識モデルを構築することが可能になります。下図は、HDASynChildFacesのサンプルです。

「HDASynChildFaces」データセットの構築

今回紹介する論文は、子供向けの顔認識モデルの性能向上を目指し、合成した子供の顔画像のデータセットを提供しています。データセットは以下の流れで作成しています。

  1. サンプリング:大人の顔画像を生成し、初期のデータセットを作成
  2. フィルタリング:初期のデータセットから低品質の画像や不要な画像を削除
  3. 人種バランシング:初期のデータセットの人種の分布を平等に調整
  4. 年齢変換:成人の顔画像を子供の顔画像に変換し、それをさまざまな年齢層に分類

まず「1.サンプリング」と「2.フィルタリング」です。最初に「StyleGAN3」という生成ネットワークを使用して、初期のデータセットを生成しています。次に生成された画像をフィルタリングし、年齢・品質に基づいて画像を削除しています。年齢のフィルタリングでは「C3AE」という年齢推定モデルを使用しています。C3AEは生成された顔画像の年齢を推定し、その年齢があらかじめ定義された基準年齢よりも低い場合、その画像を削除します。 次に、画像の品質でフィルタリングをします。これは「SER-FIQ」という品質スコアのアルゴリズムを使用しています。SER-FIQは画像の品質を0から1の間で評価します。このスコアでは1に近いほど高い品質であることを表します。下図は、SER-FIQスコアにもとに、受け入れられた画像(a)と排除された画像(b)のサンプルです。

次に、合成した顔画像の特定属性(性別や年齢など)を効率的に変換するために、StyleGAN3の潜在空間(画像を生成するための内部的なパラメータ空間)内で境界線を学習させます。これは、InterFaceGANの論文で説明されている手法に基づいたものです。この境界線は、属性(例えば「男性」と「女性」)を分ける線として機能します。この境界線を見つけるために、サポートベクターマシン(SVM)を使っています。この境界線によって、下図のように、同じ人物の性別の属性を様々な度合いで変化させることができます。

このSVMは、StyleGAN3で生成した大量の画像(500,000枚)を使って学習されます。各画像は、それぞれの属性(性別や年齢など)について、事前に学習されたモデルで分類されます。そして、分類結果のうち最も確実な上位10%と下位10%のデータだけを使ってSVMを学習しています。うまく分類できなかった不適切なデータは削除します。この論文で取り扱っている全ての属性に対して適用されています。

さらに、このデータセットでは、人種の分布を均等になるように調整しています。「3.人種バランシング」です。下図のように特定の人種を他の人種に変えることができるように、先ほど説明した学習済みの人種を区分する境界線を使用しています。まず、画像とその潜在ベクトルのデータベースを作り、それぞれの画像がどの人種に属するかを分類します。そして、最も多く分類された人種からランダムに選んだ被験者の人種を、最も少なく分類された人種に変えています。これを繰り返すことで、すべての人種が均等に分布するように調整しています。

下図は、人種のバランス調整を行う前と後の人種の分布のサンプルです。下図(a)からわかるように、初めにサンプルした被験者のうち70%が白人と分類されていたのに対し、黒人は0.5%のみであり、非常に偏った分布になっていましたが、結果的に下図(b)のように均等な分布に調整されています。

また、上述のSVMの手法によって年齢も変換しています。「4.年齢変換」です。しかし、この方法では、潜在ベクトルを適切に変換できないと、顔が不自然に変形してしまうことがあります。例えば、下図を見てみると、顔の変形が過度になってしまう例がわかります。最初の3つの画像(緑の枠で囲まれた部分)は、同じ人が次第に若返っていく様子をリアルに描いていますが、最後の3つの画像(赤の枠で囲まれた部分)は、顔が年齢方向に過度に変わると、人間らしさを失い、不自然になってしまうのがわかります。


このような問題を自動的に見つける方法として「主成分分析(PCA)」を使っています。最も重要な2つの主成分で分布を形成し、その中心から離れすぎた画像は異常な画像と判断しています。もし画像が異常だと判断された場合は、不自然に変形している可能性が高いのでデータセットから削除しています。


下図は、この手法によって異常と判断された画像のサンプルです。

「HDA-SynChildFaces」データセットは、上述のプロセスを経て1,652人の異なる被験者から成り立っています。ここで、生成された1,652人の被験者は20歳以上であり、これらの被験者に対して、年齢の変換を行い、5つの異なる年齢層の画像が合成されます。これにより6つのデータセット(成人1つ、子供5つ)が作成されています。この6つのデータセットに含まれる各画像は18種類の変数を持っており、合計で1,652 × 6 × (18+1) = 188,832枚の画像が合成されています。

合成された被験者は、男性(M)または女性(F)としても分類されています。この区分けは、顔認識システムの性能が年齢層だけでなく、性別でも変わるかどうかを検証するために行われています。各グループの画像数は下表の通りです。被験者のうち40.3%が女性で、残り59.7%が男性となっており、これは若干の偏りがある結果となります。この偏りは、品質フィルタリングの際に生じたものとしています。

 

また、各被験者の人種の分布も均等に調整され、下表のようになっています。データセットを人種別のサブセットに分割し、顔認識システムが特定の人種に対してバイアスを持つか、またそのバイアスが年齢層間で変化するかどうかを見ることができます。人種が均等に分布するように調整しましたが、後処理によってわずかに不均等になっているとしています。

実験

「HDA-SynChildFaces」データセットは様々な特性を持つ子供の顔画像を合成して集めたもので、顔認識システムが子供の顔をどれだけ正確に認識できるかを評価するためのものです。この評価に用いる顔認識システムは、ArcFace、MagFaceという2つの最新のオープンソースシステムと、市販の顔認識システム(COTS)です。

実験の結果、下表の通り、全ての顔認識システムで一貫して、大人の顔を認識するよりも子供の顔(特に若い年齢層)を認識する方が難しく、エラーが発生しやすいという結果になっています。これは、表の中で「Non-mated」部分の平均が年齢層が若いほど増加していることから見て取れます。これは「誤った認識」が多くなっていることを示しています。また、標準偏差も年齢層が若いほど増加します。これは認識の精度が一貫性を欠き、変動が大きいことを示しています。

d'のスコアも重要な指標です。これはシステムが「Mated」(マッチした分布)と「Non-mated」(マッチしない分布)をどれだけうまく区別できるかを示すもので、高いほど性能が良いとされています。しかし、このスコアも年齢が若いほど低くなります。これは、顔認識システムが子供の顔を認識するのが難しいという結果を表してイアmす。これらの結果から、顔認識システムは大人の顔を比較的高い精度で認識することができる一方で、子供の顔を認識するのは難しく、誤認識が発生しやすいことが示されています。また、特に若い子供の顔を認識する際のエラー率は高く、その認識精度には大きなバリエーションが存在することが示されています。

さらに、性別や人種による顔認識システムの性能の違いを評価しています。MagFace、ArcFace、COTSについて、類似した傾向が見られるため、ここではMagFaceの結果のみが示されています。

まず性別に関する結果は、年齢が20歳以上、13-16歳、10-13歳の男性は、女性よりもd'(顔認識システムがMatedのサンプルとNon-matedのサンプルを区別する能力)の値が高いことが分かります。しかし、より若い年齢層では、女性の方がこの値が若干高くなります。Non-matedの平均値は全年齢層で男性の方が高いですが、マッチした場合の値は男性と女性でほぼ同じです。これは、男性の方が顔認識システムがMatedとNon-matedを区別するのに若干優れていることを示しています。また、年齢層が1-4歳の子供では、女性の方が男性よりも顔認識システムのパフォーマンスが高いという結果が得られています。


次に人種に関する結果は、全年齢層において、白人の被験者が最も高いd’のスコアを示しましたが、成人の年齢層ではLatino-Hispanicの被験者がわずかに高いスコアを示しています。一方、黒人の被験者は最も低いd'のスコアを示し、それにインド人の被験者が低いスコアになっています。これらの結果から顔認識システムが人種によって性能に差があることを示しています。また、最も若い年齢層においては全ての人種でパフォーマンスが低下しましたが、最も性能が低いから最も高い人種の順序は変わらなかったという結果が得られています。これらの結果から、顔認識システムは性別や人種、そして年齢によって性能に差が出ることがわかります。つまり、これらの要素を考慮に入れながら顔認識システムを設計や調整することが重要であると言えます。

まとめ

この論文では、様々な年齢層の子どもたちの顔の画像を合成し、さらに人口統計に基づいてバランスを調整した新しいデータセット「HDA-SynChildFaces」を提案しています。また、この新しいデータセットによって既存の顔認識システムであるMagFace、ArcFace、COTSの性能を検証しています。

まず、顔の年齢変化に対して、顔認識システムが「Mated」と判断するスコアは大きく変わっていません。これは顔の年齢が上がっても顔認識システムはそれを同じ人物と認識する能力に大きな影響はないということを表しています。しかし、Non-matedと判断するスコア、つまり顔認識システムが「違う人」と判断するスコアは、年齢が上がるほど高くなる傾向にあります。つまり、年齢が上がるほど、顔認識システムは「違う人」と誤って判断する可能性が高くなるということがわかります。同様に、エラー率(どれだけ誤認識があったか)も年齢とともに増えています。年齢が上がるほど、顔認識システムの認識精度が下がる傾向があるということを示しています。

また、性別による差も見られ、女性の方が男性よりもエラー率が高く、誤認識も多くなっています。ただし、1-4歳の非常に若いグループでは、この傾向は必ずしも当てはまらないことも示されています。さらに、人種による差も見られ、特に年齢が下がるほど、すべての人種の認識精度が低下する傾向が見られています。黒人やアジア人は、特にエラー率や誤認識率が高く、白人やラティーノ・ヒスパニックに比べて認識性能が低くなっています。これは、子供たちの顔認識でも同じ傾向が見られています。

この10年の間に顔認識も実用レベルに達しています。そして、最近では子供向けの顔認識モデルの精度向上に取り組む研究が増えてきています。このデータセットをきっかけに、さらに子供向けの顔認識モデルの研究開発が進むことで、犯罪に巻き込まれる子供を救う手助けになることが期待されます。

Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする