顔偽造検出のための新しい大規模データセット「Diffusion Facial Forgery(DiFF)」を公開

Face Recognition 2024年03月04日

3つの要点
✔️ 拡散顔偽造データセット「DiFF」の開発: 顔の偽造検出技術を改善するため、50万枚以上の高品質な拡散生成顔画像を含む大規模データセットを構築。
✔️ 多様かつ正確なプロンプトの設計: テキストプロンプトと視覚プロンプトを含む、3種類のプロンプトにより、高品質かつ多様な画像生成を実現。
✔️ 偽造検出技術の進歩: エッジグラフに基づく新しい手法を提案し、これを既存のモデルに統合することで、拡散生成された顔の偽造検出の精度を大幅に向上。また、偽造検出の新たなベンチマークを提案。

Diffusion Facial Forgery Detection
written by Harry Cheng, Yangyang Guo, Tianyi Wang, Liqiang Nie, Mohan Kankanhalli
(Submitted on 29 Jan 2024)
Comments: The dataset will be released at \url{this https URL}
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、条件付き拡散モデル（CDM）が画像生成の分野で大きな注目を集めています。これは自然言語プロンプトなどのシンプルな入力から、驚くほど忠実な画像を生み出す能力があります。しかし、この進歩はセキュリティやプライバシーに対する新たな懸念を引き起こしています。例えば、悪意を持った個人が、任意の人物の偽画像を簡単に、かつ大量に生成できるようになりました。このような状況は、社会に深刻な影響を及ぼす可能性があります。

この問題に対処するため、研究者たちは拡散生成画像を特定し、分析するためのデータセットの構築に取り組んでいます。これらのデータセットは、画像の生成における微妙な違いを検出する手がかりを見つけ出すことで、偽造検出技術の発展に寄与しています。しかし、特に顔の偽造画像の検出において、既存のデータセットには、その規模や多様性において限界があるのが現状です。

このギャップを埋めるために、この論文では「Diffusion Facial Forgery（DiFF）」という拡散顔偽造向けのデータセットを提案しています。DiFFは、その規模、多様性、そして詳細なアノテーションにおいて、既存のどのデータセットとも一線を画しています。拡散生成された顔の偽造に特化した最初の包括的なデータセットです。下表から分かるように、50万枚以上の顔の偽造画像を含み、従来の顔のデータセットを大幅に上回る規模です。これにより、研究者はこれまでにない精度で偽造画像を識別し、分析することが可能になります。

さらに、DiFFを用いた実験を通じて、既存の偽造検出モデルが、拡散生成された顔の偽造を検出する際に直面する限界を明らかにしています。また、この限界を克服するため、この論文では、エッジグラフに基づく新しい手法を提案し、これを既存のモデルに統合することで偽造検出の精度を大幅に向上させることを明らかにしています。

以上のように、この研究は、高品質な拡散生成顔のデータセットの構築、包括的なベンチマークの提供、そして新しい検出手法の開発という、3つの重要な取り組みを行なったものです。この記事では、特に高品質な拡散生成顔のデータセットの構築について、ご紹介します。

Diffusion Facial Forgery（DiFF）とは

データ収集として、著名人のデータセット（VoxCeleb2やCelebAなど）から、1,070人の著名人を厳選して画像を収集しています。これらの著名人は、性別のバランスがとれており、さまざまな年齢層をカバーしています。各著名人について、オンラインのビデオや既存のデータセットから約20枚の画像を選び出し、合計23,661枚の画像を収集しています。

次に顔画像の生成です。従来の研究では、入力されるプロンプトの質が高ければ高いほど、生成される画像の質も向上するという正の相関関係が存在するとされています。これを踏まえて、条件付き拡散モデル（CDM）による高品質な画像生成に役立つ、多様かつ正確なプロンプトを設計しています。DiFFには、3種類のプロンプトが含まれています。1つ目はオリジナルのテキストプロンプト（P_t_ori）、2つ目は修正されたテキストプロンプト（P_t_mod）、3つ目は視覚プロンプト（P_v）です。これらはすべて、拡散モデルが画像を生成する際の指針として機能します。

オリジナルのテキストプロンプト（P_t_ori）では、多様で自然なテキストプロンプトを半自動的に生成しています。最初に、各著名人の正面顔の鮮明な画像を選び出し、2,531枚の高品質画像をキュレートしています。これらの画像はプロンプトインバージョンツールを用いてテキストの説明文に変換され、専門家によるレビューを経て、不要な用語の削除や明瞭性の向上を目的とした書き換えが行われています。このプロセスを通じて、10,084の洗練されたプロンプトを作成しています。

修正されたテキストプロンプト（P_t_mod）では、プロンプトの多様性を広げるために、P_t_oriの主要な属性（性別、髪の色、顔の表情など）をランダムに変更しています。この変更により、特定の特徴を修正した画像の生成が可能になります。例えば、「感情的な顔をした男性」を「感情的な顔をした女性」へと変更することができます。

視覚プロンプト（P_v）は、各画像から抽出された顔の特徴（エンベディング、スケッチ、ランドマーク、セグメンテーションなど）を含みます。これらの特徴は拡散モデルに適用され、顔の編集などのタスクに特に有用です。視覚的な手がかりに基づいて拡散モデルを条件付けることで、より具体的な画像生成が可能になります。

最後に顔の偽造生成です。顔の偽造生成における技術は、入力の種類に応じて、4つの主要なアプローチに分けることができます。テキストから画像（Text-to-Image, T2I）、画像から画像（Image-to-Image, I2I）、フェイススワッピング（Face Swapping, FS）、そしてフェイス編集（Face Editing, FE）です。

テキストから画像（T2I）では、具体的なテキストプロンプト（例えば、「制服を着た男性」）をもとに、その内容に合った画像を生成します。この方法は、テキストに基づいた直感的な指示から具体的なビジュアルを創出します。一方、画像から画像（I2I）とフェイススワッピング（FS）は、視覚的な入力を使用します。I2Iは特定のアイデンティティの特徴を複製し、FSは2つの異なるアイデンティティの顔を交換することで、より細かい操作を行います。フェイス編集（FE）は、テキストと視覚の両方の条件を組み合わせて、特定の顔の属性（例えば、表情や唇の動き）を修正しながら、他の属性を保持する方法を採用します。このアプローチは、より複雑な編集を実現します。

この論文では、それぞれのカテゴリにおいて、SoTAを採用し、生成された顔の多様性を高めています。具体的には、テキストから画像では、Midjourney、Stable Diffusion XL（SDXL）、FreeDoM T、HPSなどの方法を使用しています。画像から画像では、Low-Rank Adaptation（LoRA）、DreamBooth、SDXL Refiner、FreeDoM Iなどがあり、これらは特定の顔特徴の捉え直しや最適化を行います。フェイススワッピングには、DiffFaceやDCFaceを利用し、異なるアイデンティティ間で顔を交換しています。フェイス編集では、Imagic、Cycle Diffusion（CycleDiff）、Collaborative Diffusion（CoDiff）を用いて、より細かい顔の編集を実現しています。

下表はDiFFの詳細な統計情報です。2,500枚の画像とそれに対応する20,000のテキストプロンプトおよび10,000の視覚プロンプトに基づいて、高品質な結果を合成するために13の異なる方法を採用しています。

生成された画像の総数は50万枚を超えています。

まとめ

この論文では、顔の偽造に伴うリスクを過小評価している現存するデータセットの問題点に取り組むために、大規模かつ高品質な拡散生成型顔偽造データセット「DiFF」を開発、公開しています。このデータセットには、50万枚を超える顔画像が含まれており、それぞれが様々なプロンプトに基づいて作成され、元の画像との高度な一致を保持しています。

また、論文では、DiFFを用いた広範囲にわたる実験を行っており、顔の偽造検出に関する新たなベンチマークも提案しています。さらに、検出性能を向上させるための新しいエッジグラフ正則化の手法も開発しています。将来的には、さまざまな方法や条件を含めたDiFFの拡張や、拡散生成画像の追跡や検索など、DiFFに基づく新たな課題の探求を計画しています。

さらに、今回構築されたデータセットに含まれる元の顔画像は、公開されている著名人のオンラインビデオから取得したものです。すべてのプロンプトについて、特定の生体認証情報を記述しないよう厳格なレビューが行われています。生成された画像が社会的価値観に適合するよう細心の注意を払って検討されているとしています。データセット「DiFF」の取得プロセスを徹底的に管理することで、潜在的な不正利用のリスクを最小限に抑えることに努めているとしています。なお、DiFFは、こちらのGithubに公開されています。https://github.com/xaCheng1996/DiFF

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。