最新AI論文をキャッチアップ

CLIPでフェイクイメージを見破れ:画像-言語モデルによるフェイク検知

CLIPでフェイクイメージを見破れ:画像-言語モデルによるフェイク検知

Fake Detection

3つの要点
✔️ 画像と言語のマルチモーダルモデルであるCLIPを使ったフェイク検知
✔️ CLIPの転移学習のための最適な戦略を比較・検討

✔️ プロンプト最適化によって汎化性能に関してstate-of-the-artを達成

CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection
written by Sohail Ahmed KhanDuc-Tien Dang-Nguyen
(Submitted on 20 Feb 2024)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

この研究では、画像と言語のマルチモーダルな基盤モデルであるCLIPを利用してフェイクイメージを検知する方法について議論しています。これまで、画像データのみを用いたフェイク検知が一般的であったのに対して、画像と言語のマルチモーダルな情報を用いてフェイク検知の方法を確立したことがこの研究の重要な新規性です。特に、CLIPをフェイク検知に利用するための様々な転移学習の戦略を比較・検討し汎化性能に関してstate-of-the-artを達成しました。

背景

フェイクイメージ検知の重要性

近年、敵対的生成ネットワーク(GAN)や拡散モデルなどの生成モデルの著しい発展に伴って人間でも判別することが難しいようなフェイクイメージの生成が可能になってきています。一方で、そのような高精細なフェイクイメージはニュースの捏造などに繋がり、潜在的なリスクを孕んでいます。例えば、政府高官による人種差別発言などの捏造は国際的な問題に発展しかねません。そのため、フェイクイメージを見破る汎用的な手法の確立は重要な社会的課題です。

フェイクイメージ検知の技術的難しさ

フェイクイメージ検知の技術的な難しさは、その生成モデルの多様さです。つまり、生成モデルが多様化・複雑化する中で堅牢かつ汎用的にフェイクイメージを判別する方法論を確立しなければなりません。しかし、それは人工知能の基礎的な技術である深層学習が内挿的であり、訓練データセットの分布の外に位置する領域の推定が難しいことを背景にフェイクイメージの検知を技術的に困難にしています。この研究は、その困難を画像と言語のマルチモーダルな基盤モデルであるCLIPの豊かな表現力によって解決しようと試みるものであり、フェイクイメージ検知における新たな潮流を感じさせるものです。

関連研究

CLIP (Contrastive Language-Image Pre-training)

CLIPは画像とそれに関連したテキストキャプションによって構成される大規模なデータセットで事前に学習した、画像と言語のマルチモーダルな基盤モデルです。CLIPは画像と言語を共通の特徴量空間にマッピングすることで、汎用的なタスクに対してZero-shot Learningを可能にしました。CLIPの豊かな表現力は、フェイクイメージ検知においても注目されています。実際に、CLIPの獲得する特徴領空間を可視化すると、リアルイメージとフェイクイメージがよく分離されることが分かります(図1)。

t-SNEを用いたいくつかのモデルを用いた特徴量空間におけるリアルイメージ(赤)とフェイクイメージ(緑)の可視化。
図1. t-SNEを用いたいくつかのモデルによる特徴量空間におけるリアルイメージ(赤)とフェイクイメージ(緑)の分布の可視化。

提案手法:4つの転移学習戦略

この研究では、CLIPをフェイク検知に応用する上での転移学習の戦略として以下の4つの方法を整理し、比較・検討しています。

転移学習の戦略
図2. フェイク検知のための4つの転移学習の戦略。右下にそれぞれの戦略を用いた時の訓練するパラメータ数を示しています。

 Prompt Tuning

Context Optimization (CoOp)と呼ばれる方法を用いて、CLIPの言語エンコーダに入力するプロンプトを最適化する方針で訓練する方法です。入力するプロンプトそのものが訓練対象です。

 Adaprer

CLIPに含まれる言語・画像エンコーダに関してはパラメータを変更せずに、画像エンコーダに軽量な線形層を追加して、それに関してだけ訓練を行う方法です。

 Fine Tuning

CLIPのすべてのパラメータをフェイク検知タスクの文脈で再学習します。訓練パラメータの総数は一番多いです。

 Linear probing

CLIPに含まれる画像エンコーダのみを用いて、それによってそれぞれの画像に対して出力される特徴量から線形層を用いてreal/fakeを回帰する方法です。

実験結果

それぞれの転移学習戦略を用いた時のモデルに対して、ProGANによって生成されたデータセットのみを用いてモデルを訓練し、21種類の異なるGANベース、拡散モデル、商用画像生成器から取得したデータセットによって汎化性能を検証しました。表1に準備した21種のデータセットの詳細を示しています。

検証データセット
表1. 検証に用いた21種のデータセット。

汎化性能

 筆者らは、様々なデータセットを用いて訓練されたモデルの汎化性能を検証しました。表2にそれぞれのデータセットを用いた精度の比較を示しています。先行研究と比較して、画像と言語のマルチモーダルな情報を統合したこの研究の手法に優位性があることを示唆しています。特に、Prompt TuningがCLIPの転移学習の戦略として最も優れていることも分かります。これらの結果は、これまで画像データのみからフェイク検知を行うのが一般的であったのに対して、画像と言語のマルチモーダルな情報を統合的にフェイク検知に活用することが有用であることを示唆しており、フェイク検知の新たな潮流を感じさせます。

一方で、先行研究も含めてFace Swapのデータセットに対する性能がその他のデータセットに比べて精度が低いことが確認できます。つまり、GANや拡散モデルのように画像全体を生成する場合に対しては高精度でも、Fase Swapのような画像の一部を編集・置き換えるようなケースでは精度が低い場合があり更なる議論が必要です。

精度
表2. それぞれのデータセットを用いた精度の比較。最も性能が良かったものを太字で示しています。

訓練データセットのサイズの影響

筆者らは、限られた数の画像しか手に入らない実際のユースケースを想定し、訓練データセットのサイズが性能に与える影響についても検討しています。表3にいくつかのサイズの訓練データセットを用いたケースのモデルの性能をまとめたものを示しています。この結果から、筆者らは訓練データセットのサイズを変更しても、モデルの性能に有意な差が見られなかったと結論しています。つまり、この研究で検討された戦略が限られた数のデータのみを用いる実世界のユースケースでも有効であることを示唆しています。

データセットサイズ
表3. 訓練データセットのサイズの性能に与える影響。

 筆者らはさらに議論を進めて、それぞれの画像カテゴリーから32枚(real16枚/fake16枚)のみの画像を抽出し合計640枚の画像のみで構成される訓練データセットを用いてモデルを訓練し性能を評価しています。この検証においても筆者らの提案する方法の有用性が示されるとともに、Prompt Tuningがその他の戦略に比べて有意であるという結果が得られました。

few-shot
表4. few-shot学習されたモデルの性能。

画像の後処理の性能に与える影響

実世界で画像がオンラインで共有される場合を考えると、画像は後処理を施されるのが一般的です。また、その後処理は一般的にフェイク検知の性能に大きな影響を与える可能性があると認知されています。これらを背景として筆者らは、画像にいくつかの後処理を施した時の検知性能の変化についても議論しています。 実際の後処理として、論文中では(1)JPEG圧縮と(2)ガウシアンフィルターが検討されました。図3にそれぞれの変換に対するモデルの堅牢性をまとめたものを示しています。興味深いことに、この検証においてはLinear Probingが最も堅牢な性能を示しています。

後処理
図3. 画像の後処理が性能に与える影響。

まとめと結論

この研究では、様々なフェイクイメージデータセットに対するCLIPを用いたフェイク検知の堅牢性を包括的に検証しました。また、CLIPをフェイク検知に応用するための転移学習の方法論として、Fine-tuning、Linear Probing、Prompt Tuning、Adapter Networkの4種の戦略を比較・検討しました。実験の結果、CLIPによる画像と言語のマルチモーダルな情報の統合が、フェイク検知の文脈でも有効であることが示唆されました。これは、今後のフェイク検知技術の新たな潮流を予感させるとともに、Face Swapなどの他種のフェイクイメージに対するフェイク検知技術の更なる発展を期待させるものです。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする