最新AI論文をキャッチアップ

CLIPを用いたディープフェイク検出の新境地

CLIPを用いたディープフェイク検出の新境地

Fake Detection

3つの要点
✔️ CLIPを基礎とするフェイク検知でState-of-the-Artを達成
✔️ 新たな試みとしてCVaR損失とAUC損失を導入

✔️ SAMを用いて最適化を採用し汎化性能の向上を検討

Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images
written by Santosh, Li Lin, Irene Amerini, Xin Wang, Shu Hu
(Submitted on 19 Apr 2024)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Processing (eess.IV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

この研究では、CLIPモデルによって得られる画像と言語のマルチモーダルな情報を統合的に活用し、拡散モデルによって生成されるフェイク画像を検出するための堅牢な方法論を提案しています。特に、新たな試みとしてConditional Value at Risk (CVaR)損失とArea Under the ROC curve (AUC)損失を導入しモデルの汎化性能の向上を目指しています。

また、手法としての汎用性を担保するために、Shrpness-Aware Minimization (SAM)を用いたパラメータの最適化を導入しています。これらの取り組みの結果、筆者らの手法は、従来のCLIPを基礎とする手法を凌駕する性能を示しました。

図1にこの研究とこれまでのCLIPを基礎とする手法の概要とのそれらのAUCの比較を示しています。この結果から、この研究の与える手法が、従来の手法と比較して極めて高い性能を示していることが分かります。

図1. これまでのCLIPを基礎とするフェイク検知技術とこの研究のAUCの比較。

背景

拡散モデルの発展によって、極めて精巧なフェイク画像の生成が可能になりました。一方で、生成モデルの与えるフェイク画像はその精巧さゆえに、デジタルメディアにおける信頼性に極めて重大な問題を提起します。つまり、生成モデルの与えるフェイク画像は、本物の写真とほとんど見分けがつかないため、政治、社会、個人などの広範囲の信頼性を損なう可能性があると筆者は指摘します。つまり、これらのフェイク画像と本物の写真を見分ける方法論を確立することで、デジタル社会における信頼性を担保する技術を提供することは、AIの研究領域のみならず、社会全体の課題であると言えます。

実験結果

提案手法

図2にこの研究の与える手法の概要を示しています。以下ではこの手法を構成する重要な要素のそれぞれを簡単に説明します。

図2. この研究の与える枠組みの概要。

テキストと画像のマルチモーダルな情報を統合した特徴量設計

この研究の根幹となるネットワークはCLIPです。この研究では図2に示しているように、画像とテキストをCLIPに入力することでそれぞれのモーダルに対応した特徴量を抽出し、それらを統合してMLPに入力することでフェイク検知を行います。

損失関数の設計

この論文中では、以下の損失関数によって最適化を試みています。

式中のそれぞれの項に関しては後述します。また、$\gamma$はそれぞれの項のバランスを決定するハイパーパラメータです。

・Conditional Value-at-Risk (CVaR) Loss

CVaR損失はモデルが、データセットに含まれる最も困難な例に着目するように設計されており、以下の式で定義されます。

 

この式中で、$ [a]_{+}=max\{0,a\} $です。また、$l$はクラス分類に対する損失関数であり、${F_{i},Y_{i}}$は特徴量とクラスラベルのペアです。さらに、$n$はデータの総数、$\alpha$はハイパーパラメータです。この式は、$\lambda$に対して最小値を考えていますが、$\lambda$が小さくなることで第二項が損失$l$を大きくするデータから順に0でない$i$が増えていきます。一方で、閾値$\lambda$よりも小さい$l$を与えるデータ${F_{i},Y_{i}}$に関しては無視されます。この意味で、損失を大きくするデータに対して注目した最適化に寄与する損失関数の設計がなされていると言えます。

・AUC Loss

AUC損失は、その名の通りAUCの向上に直接寄与する等な最適化を実現するために設計されています。定義は以下です。

ただし、ここで

として定義されます。式中で、$\eta\in(0,1], p>1$であり、$s(\theta; F_i)$はスコア関数を示しています。つまり、この定義はAUCを向上させるように、正例と負例のマージンを拡大させるように設計されています。

最適化手法

この研究では、最適化手法として、Sharpness-Aware Minimization (SAM)を検討しています。この最適化手法は、単に損失関数の値が小さくなるように探索するのではなく、最小値の近傍で平坦なパラメータを探索するように設計されています。その結果として、モデルが汎化性能を獲得することが期待されると言われています。 

実験結果

・ベースラインとの比較

この研究中に検証のために用いられたデータセットは、LAION-400Mに含まれるリアル画像とそれに対応する4種のフェイク画像です。フェイク画像は、Stable Diffusion 1.4、2.1、XL、DeepFloyd IFによって作成されたものを用いました。また、検証のためのベースラインとして、CLIPの画像エンコーダの与える特徴量からバイナリークロスエントロピー損失によって訓練されたMLPによってフェイク検知を行う方法(Traditional 1)とCLIPを基礎としてテキストと画像をエンコードした特徴量からバイナリークロスエントロピー損失によって訓練されたMLPによってフェイク検知行う方法(Traditional 2)の二つを準備しました。また、検証のための指標としては、AUCを採用しました。

表1にそれぞれのベースラインとこの研究の与える方法のAUCの観点からの比較を示しています。この結果から、この研究の与える方法が、従来手法よりも高い性能を示していることが分かります。

表1. 幾つかのベースラインとこの研究の与える方法のAUCの観点からの比較。

・アブレーションスタディ

筆者らは、この研究で導入した、CVaR損失とAUC損失、SAMのそれぞれがどれほど性能向上に寄与しているかを検討するために、それぞれの項目に関するアブレーションスタディを行いました。表2にそれぞれに対する、アブレーションスタディの結果を示しています。この結果から、CVaR損失、SAM、AUC損失の順でAUCの観点からの性能向上に寄与していることが分かります。

表2. この研究で導入した幾つかのコンポーネントの性能に与えるアブレーションスタディ。

 ・SAMによる損失関数のlandscapeの変化

補足的に、筆者らはSAMによる効果を可視化する目的で、SAMを用いたことによる損失関数のlandscapeの変化を可視化しています。図3にSAMの導入による損失関数のlandscapeの変化を示しています。この結果から、確かにSAMを導入することによって、周囲が平坦な最適解が選択されていることが示唆されます。

図3. SAMを用いたことによる損失関数のlandscapeの変化。

まとめ

この研究では、CLIPを用いた新たなディープフェイク検知のための方法論を確立するために、テキストと画像による特徴量を統合的に利用した検知手法を提案しました。特に、CVaR損失とAUC損失を融合した損失関数を採用している点とSAMによるパラメータの最適化を導入している点がこの研究を顕著なものにしています。

この研究では、生成モデルによって作成されたフェイク画像に着目しておりますが、GANによって作成されたフェイク画像に対しても汎用的に機能するのかが今後の論点になると考えられます。筆者らの野心的な試みは限定的ではありますが、フェイク検知技術における新境地を開いていると言え、今後の発展が期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする