IDiff-Face: 合成データによる顔認識技術の進化と法的・倫理的課題への対処

Face Recognition 2023年11月29日

3つの要点
✔️ 「IDiff-Face」データセットの構築: 法的・倫理的な問題に対処するため、新しい合成データセット「IDiff-Face」を提案
✔️ 顔認識技術への応用: IDiff-Faceを用いた顔認識で、従来の合成データセットよりも高い精度を達成
✔️ プライバシー保護と技術進化のバランス: 顔認識のデータセット生成におけるプライバシー保護の課題に対処し、同時に顔認識技術の進化を促進する新しい手法を提供

IDiff-Face: Synthetic-based Face Recognition through Fizzy Identity-Conditioned Diffusion Models
written by Fadi Boutros, Jonas Henry Grebe, Arjan Kuijper, Naser Damer
(Submitted on 9 Aug 2023 (v1), last revised 10 Aug 2023 (this version, v2))
Comments: Accepted at ICCV2023
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

顔認識技術は、ディープラーニングのブレークスルー以降、精度が飛躍的に向上しており、日常生活の多くの場面で使用されています。そして、この顔認識技術に大きく貢献していたのが、大規模データセットです。しかし、これらのデータセットは、ユーザーからの同意なしにインターネットから収集されたものがほとんどでした。そのため、法的、倫理的な問題が生じ、多くのデータセットが利用できなくなっています。

そこで、この法的、倫理的な問題に対処するため、合成した顔画像による代替が注目されています。しかしながら、従来の合成データセットには、個々の顔の多様性（intra-class diversity）の不足や、異なる顔同士の区別（identity discrimination）が難しいなどの問題がありました。この論文では、これらの問題に対処するため「IDiff-Face」という新しい合成データセットの生成方法を提案しています。IDiff-Faceを使用した顔認識は、既存の合成データセットに比べて高い精度を示しており、実際の顔画像によるデータセットを使用した顔認識と近い精度を達成しています。

この論文は、合成したデータセットを使って、法的・倫理的問題を回避しつつ、顔認識技術をさらに進化させるための新しい手法を提案しています。

「IDiff-Face」とは

下図がIDiff-Faceの概要です。上部（Traning）と下部（Sampling）の2つの部分に分かれています。上部は学習プロセスを視覚化したものです。下部は条件付きサンプリングのプロセスを示しています。上部の学習プロセスでは、デノイジングU-Netが事前学習済みの顔認識モデルから取得した特徴量に基づくコンテキストで条件付けされています。Deffusion Model（DM）の学習プロセス全体は、事前学習済みのオートエンコーダー（AE）の潜在空間内で行われます。下部のサンプリングでは、学習済みのDeffusion Model（DM）が3種類の顔の特徴量に基づいてサンプルを生成しています。顔の特徴量を固定し、追加されたノイズを変えることで、同じアイデンティティの異なるサンプルを生成できます。

IDiff-Faceは、デノイジング拡散確率モデル（DDPM）と呼ばれるディープラーニングモデルに基づいており、事前学習済みのオートエンコーダの潜在空間で学習されています。その核となるのは、顔認識モデルを使用して得られる特徴量、つまり「アイデンティティコンテキスト」に基づく条件付けです。この条件付けにより、IDiff-Faceは、アイデンティティ固有の顔画像を生成することができるようになります。また、IDiff-Faceの重要な機能は、合成画像の生成です。このプロセスでは、入力された顔画像の特徴量を基にして、実在しない人物のリアルな顔画像を作り出すことができます。この技術は、既存の画像の変種を生成するだけでなく、新しい合成アイデンティティの画像を生成することも可能です。

さらに、「Contextual Partial Dropout（CPD）」という手法を用いて、生成される画像の多様性を高めています。これは、アイデンティティコンテキストに過剰適合することを防ぎ、同じアイデンティティコンテキストを用いても異なる画像を生成できるようにするように工夫されています。このプロセスでは、コンテキストの一部をランダムに無視することで、画像生成時の多様性を保ちます。

下図は、代表的な合成された顔画像のデータセットと、この論文で提案しているIDiff-Faceによるデータセットを視覚的に比べたものです。上部（青色）は、SOTAとして知られている合成顔認識モデルで用いられている合成顔画像です。次のグループ（緑色）は、異なるCPD確率と、異なるタイプの合成エンベディングを持つIDiff-Faceモデルによるサンプルを提示しています。最後のグループ（黄色）は、既存のLFWデータセットに対して、提案手法で様々なバリエーションのアイデンティティを生成した際のサンプルです。各アイデンティティにつき4つの画像があり、各方法で2つのアイデンティティが例示されています。

SynFaceやUSynthFaceなどの合成顔認識モデルは、DiscoFaceGANによって生成された合成画像を利用しています。DiscoFaceGANは、顔向き、照明、表情などの事前に定義された属性を持つ合成アイデンティティから画像を生成するための分離された表現学習に基づいています。生成された顔画像は事前定義された属性のセットで制御されているため、実世界の顔画像に存在するクラス内多様性が欠けている可能性があります。一方、SFaceは、これらの属性を明示的にモデル化しないクラス条件付きGANモデルです。これは、特定のラベルで合成画像を生成するように条件付きで学習されています。より多くのクラス内変動を持つ画像を生成できますが、アイデンティティ分離性が低いという特徴があります。これとは対照的に、DigiFace-1Mの画像は3DMMレンダリングによって生成されています。DigiFace-1Mのアイデンティティは、顔のジオメトリ、テクスチャ、特にヘアスタイルの組み合わせとして人工的に定義されています。しかし、この手法は、高度な計算レンダリングパイプラインを使用して大規模なデータセットを生成するため、極めて計算コストが高く、研究目的には適していません。

実験結果

ここでは、先ほどの様々な手法によって生成された顔画像の違いを定量的に評価しています。下表は、提案モデルによる合成データセットにおけるアイデンティティ分離性の評価の結果を表しています。最初の2行は、本物のLFWおよびCASIA-WebFaceデータセットの結果を示しています。本物の顔画像で構成されているLFWとCASIA-WebFaceにと比較して、IDiff-Face（CPD 0％）では、Two-StageとUniformにおいて、同程度の性能を示しています。LFWにおけるEERは0.002で、IDiff-Face（CPD 0％）におけるEERは0.003（Two-Stage、）0.007（Uniform）となっています。

また、CPD（Contextual Probability Distributions）確率がそれぞれ0%、25%、50%の場合の、Uniformを使用して生成した合成データと、同様にTwo-Stageを使用して生成した合成データに対して性能評価を行っています。すべての学習データセットは、1つのアイデンティティにつき16サンプルを持つ5,000アイデンティティで構成され、合計80,000サンプルで構成されています。LFW、AgeDB-30、CA-LFW、CFP-FP、CP-LFWの5つのベンチマークで評価しています。

上表からわかるように、IDiff-Faceデータセットで学習した顔認識モデルは、小規模な合成データセット（80Kサンプル）を使用しても高い精度を達成しています。Uniformで生成されたIDiff-Faceデータセットで学習したモデルの場合、CPD25（平均精度79.54%）で生成されたデータセットで学習した顔認識モデルが最高の精度を達成しています。Two-Stageで生成されたデータセットで学習したモデルでは、CPD25とCPD50で生成されたデータセットで学習した顔認識モデルが非常に競争力のある結果を達成しています。CPDは、生成されたサンプル内のクラス内変動を増加させることで顔認識の精度の大幅に改善する事がわかります。

また、下表はSOTAの合成ベースの顔認識における5つのベンチマークテストでの検証精度を示しています。最初の2行は本物の顔画像データで学習した顔認識モデルの結果を示しています。比較対象として利用されています。合成の顔画像データの顔認識モデルは、ResNet-50を使用しています。また、合成ベースの顔認識モデルの最高の認証精度は太字で、2番目に良いものは下線が引かれています。

IDiff-Faceで学習した顔認識モデルは、従来のすべての合成ベースの顔認識モデルを上回った性能を示しています。IDiff-Faceを利用したモデルによって達成された平均精度は88.20%であり、SOTA合成ベースの平均精度は83.45%（DigiFace-1Mによるもの）です。また、IDiff-Faceでは学習データセットのサイズを増やすことで、すべての実験設定において顔認識の精度が向上しています。さらに、データセットの幅（アイデンティティの数）を増やすことで、データセットの深さ（アイデンティティごとの画像数）を増やした場合と比較して、より高い精度が達成されています。例えば、CPD25（Uniform）を使用したIDiff-Faceは、160Kサンプル（5Kアイデンティティ、各アイデンティティに32枚の画像）を使用した場合に平均精度82.86%を達成しています。この精度は、160K（10Kアイデンティティ、各アイデンティティに16枚の画像）で学習した場合に83.87%に改善されています。

まとめ

顔認識の学習データセットには、大きなクラス内変動が求められます。本物の顔画像のデータセットでは、これらの特性を持っており、顔認識の精度向上に大きく寄与してきました。しかし、プライバシー保護の観点から本物の顔画像を顔認識の学習用に利用することが難しくなっています。この研究では、この課題を解決するために「IDiff-Face」を提案しています。これは、DM（Diffusion Model）に基づく、アイデンティティ条件付き生成モデルです。また、CPD（Contextual Probability Distributions）を導入しており、モデルがアイデンティティコンテキストに過剰適合するのを防ぎ、アイデンティティの分離性とクラス内変動のトレードオフを制御しています。シンプルでありながら効果的なメカニズムとして提案しています。さらに、IDiff-Faceを利用することで、5つの主要な顔認識のベンチマークでSOTAの精度を達成し、主要な合成ベースの顔認識の手法の性能を上回っています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。