プライバシーを尊重し、複数タスクに利用可能な新しい顔画像データセット「マルチタスクフェイス（MTF）」

Face Recognition 2023年12月15日

3つの要点
✔️ GDPRに準拠し、顔認識、人種、性別、年齢分類の複数タスクに使用できる新しい顔画像データセットを提案。
✔️ 高品質なデータを確保するために厳格なフィルタリングとラベリングを実施。
✔️ 処理されたデータセットは高い性能を示し、将来的には顔の匿名化などの新たなタスクにも拡大予定。

Multi-Task Faces (MTF) Data Set: A Legally and Ethically Compliant Collection of Face Images for Various Classification Tasks
written by Rami Haffar, David Sánchez, Josep Domingo-Ferrer
(Submitted on 20 Nov 2023)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

顔画像は、顔認識、年齢推定、性別識別、感情分析、人種分類など、さまざまな分類タスクに活用することができる有用性の高いデータです。一方で、非常にセンシティブな個人情報であり、GDPRなどのプライバシー規制によって研究目的で顔画像を収集し、使用することが制限されています。その結果、これまで公開された大規模な顔画像のデータセットが非公開になりました。

そこで、近年注目されているのが合成された顔画像によるデータセットです。しかしながら、実在する人物の本物の顔画像と同じデータ分布を実現することが難しく、本物の顔画像を使用したモデルと比べると、性能が劣ってしまうので現状です。また、従来のデータセットのほとんどは、特定のタスク向けにラベル付けされており、その利用用途も制限されています。

これらの問題に対処するために、この論文では、法的な規制をクリアにしつつ、顔認識、人種、性別、年齢分類を含む様々な分類タスク向けに利用可能なように設計した本物の顔画像によるデータセット「マルチタスクフェイス（MTF）データセット」を提案しています。

この論文では、データセットを紹介し、データ収集および処理手順について説明しています。また、様々な分類タスクでMTFデータセットを利用した際の性能評価も行っています。なお、MTFデータセットは、https://github.com/RamiHaf/MTF_data_set で公開されています。

マルチタスクフェイス（MTF）データセットとは

MTFデータセットは、GDPR（一般データ保護規則）の第9条にある特例を利用して、収集されています。この特例は、データの主体（つまり、データの所有者）が自ら公開した個人データを収集・処理することを許可するものです。このデータセットは、公に知られている個人に焦点を当てています。これにより、プライバシーの問題を避けつつ、データセットを法的に安全に公開できるようにしています。さらに、SoBigData++の倫理的および法的評価を行う委員会（BOEL）から、このデータセットの作成と使用に関する承認を得ています。

データ収集においては、公に知られた個人（有名人）を選ぶために「IMDBウェブサイト」を利用しています。多様性と網羅性を高めるために、アジア（中国/韓国）、アジア（インド）、黒人、白人というアメリカ合衆国国勢調査局が使用する4つの人種を含めています。性別は、男性と女性を同数含めて、性別によるバイアスを軽減するようにしています。同様に、若い有名人と年配の有名人を同数含めています。18歳から49歳を「若い」と定義し、50歳以上を「年配」と定義しています。各人種グループから同数の有名人（各40人の年配男性、年配女性、若い男性、若い女性）を選び、合計640人のIDが選ばれています。

有名人ごとにダウンロードする画像の数に制限は設けず、利用可能な画像がなくなるまでクローリングを続け、最終的に117,114枚の画像を収集しています。データ処理においては、まずHaar Cascadeを使用して画像内の顔の領域を自動的に検出し、クロップています。

さらに、各画像に想定する有名人の顔画像が含まれていることを確認するために、3人の評価者が、クロップされた各画像を目視で確認しています。元の画像は、公共ドメインやクリエイティブコモンズから得られたため、芸術作品やデザインのランダムな画像も多く含まれています。Haar Cascadeはこれらの画像から誤って顔の領域を検出していたため、適切でない画像を除外しています。その結果、データセットのサイズは42,575枚に減少しています。また、正しいIDに属していない顔画像も除外されています。これによって、データセットのサイズは6,453枚に減少しています。

また、顔の一部が隠れている画像（例：サングラスや手で口や目を覆っているなど）、手描き、人工的に変更された、またはAIアルゴリズムによって生成された画像も除外されています。メイクアップで顔が不自然に見える画像も削除されています。これにより、データセットのサイズは5,984枚に減少しています。

さらに、データ漏洩のリスクを軽減し、AIモデルの学習に不要な追加コストを避けるために、重複または類似した画像（例：連写）をデータセットから除外し、データセットのサイズは5,763枚になっています。ここからさらに、想定するタスクの基準を満たさない画像も専門家によって除外されています。

これらのフィルタリングによって、最終的に、データセットは117,114枚から5,246枚に大幅に減少しています（元データのわずか4.47%）。残った顔画像は、全ての画像が1024 x 1024ピクセルの均一な解像度にリサイズされています。

顔画像をクロップし、一定水準以上の品質の顔画像のみにフィルタリングした後、ラベリングを行っています。顔認識のためのラベリングでは、画像は240人の有名人の中から1人を識別するためのラベル付けをしています。人種の分類のためのラベリングでは、アジア（中国/韓国）、アジア（インド）、黒人、白人の4つのカテゴリの中から1つに分類しています。性別の分類のためのラベリングでは、男性または女性のラベルを付けています。年齢の分類のためのラベリングでは、若いか年配かの2つのカテゴリのうち1つに分類しています。

専門家は、これらのラベルが正しく付けられているかを確認するために、2回の検証プロセスを行っています。最初に、それぞれの専門家がデータセット全体のラベリングを個別にチェックし、次に専門家たちが協力して、全体の検証を行っています。このプロセスによって、データセットの各画像には、顔認識、人種、性別、年齢の各タスクに対して適切なラベルが付けられることが保証されています。

下図は、一連の手順を示しており、収集された元の画像から顔をクロップし、最終的に付与したラベルを示しています。

最終的に、MTFデータセットの構成は下表のようになっています。

顔認識（Face Recognition）は、各有名人を名前に基づいて分類するタスクであり、240人の有名人が含まれ、データセット内の全ての画像をカバーしています。人種分類（Race Classification）は、4つのラベルを持つ分類タスクであり、アジア（中国/韓国）と白人のグループが多数、アジア（インド）と黒人のグループが少数の構成になっています。性別分類（Gender Classification）は、男性と女性の二値分類のタスクであり、男性と女性のラベルの間で比較的バランスが取れており、男性有名人の方がわずかに多いですが、男性と女性の両方の有名人がほとんど同じ割合になっています。年齢分類（Age Classification）は、若いと年配の二値分類のタスクであり、性別分類タスクとは対照的に、非常に不均衡なデータ分布になっています。「若い」カテゴリに多くの有名人と画像が含まれているのに対し、「年配」カテゴリにはわずか50人の有名人が属し、514枚の画像のみが含まれています。

これらのタスクの分布の不均衡は、世界各地の有名人が画像を公開する頻度や著作権ライセンスの違い、若い有名人と年配の有名人の画像の公開頻度の違い、そして年配の有名人が若い頃の画像を多く持っている傾向によるものです。このため、MTFデータセットは最初の目標としていた全てのタスクとラベルにわたって均等な画像数を持つことができていませんが、この不均衡な分布は、オンラインで利用可能なデータの実況を反映していると言えます。

実験

ここでは、顔認識タスクの性能評価の結果を紹介します。結果は下表の通りです。このタスクには240のラベルが含まれています。

想定通り、すべてのPre-trainedで、Randam Guessよりも良い性能を示しています。また、すべてのPre-trainedは、From scratchで学習したモデルよりも優れた性能を示しています。ConvNeXTが最も高い性能を示しています。

次にデータセットを構築する際のデータ処理の有効性について紹介します。MTFデータセットは手動で処理され、低品質や不適切な画像が取り除かれています。この有効性を検証するために、Unprocessed（処理されていない生のデータセット/インターネットから収集された大量の画像）と、MTF（手動で処理されたMTFデータセット）で、同じディープラーニングモデル（ConvNeXT）を学習し、4つのタスクで性能を比較しています。結果は下表のようになっています。

表から分かる通り、処理されたMTFデータセットで学習したモデルは、生のデータセットで学習したモデルよりもはるかに優れたパフォーマンスを示しています。例えば、顔認識タスクでは、処理されたデータセットで学習したモデルは約80%の精度を達成していますが、生のデータセットではわずか10%となっています。また、この実験では、大量のデータよりも高品質なデータの方が重要であることも示しています。大量のデータで学習しても、そのデータにノイズが多ければ、パフォーマンスは低くなります。

機械学習モデルの学習において、データの質（特に手動での精密な処理を経たもの）が重要であることを強調しています。良いデータはモデルの性能を大幅に向上させることができ、量よりも質が重要であると言えます。

まとめ

この論文では、顔認識、人種分類、性別分類、年齢分類の4つのタスクに使用できる顔画像のデータセット「マルチタスクフェイス（MTF）画像データセット」を提案しています。このデータセットの特徴は、プライバシーに配慮しており、法的要件（特にGDPR）に準拠していることです。データセットには、有名人の顔画像が含まれており、これらは公開されているものか、変更や商業利用が許可されているライセンスの下で公開されています。また、このデータセット１つで、顔認識、人種、性別、年齢の複数の分類タスクに利用することができます。

また、MTFデータセットで5つのディープラーニングモデルの性能を評価しています。事前に学習された重みを持つモデルは、最初から学習したモデルよりも良い結果を示しています。中でも、ConvNeXTモデルという最近提案されたモデルが、4つのタスクすべてで最も良い結果を出しています。

データセットの処理方法の重要性も証明されています。処理されたデータセットで学習されたモデルは、処理されていない生データで訓練されたモデルよりもはるかに良いパフォーマンスを示しています。

最後に、この論文のチームは、将来的にこのデータセットを使って、顔の匿名化などの他のタスクにも取り組む予定であると述べています。今度、プライバシー規制に対応した有用性の高いデータセットの開発が進むことが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。