【FreqNet】周波数空間での学習による汎用的ディープフェイク検知

Fake Detection 2024年07月29日

3つの要点
✔️ 周波数情報とCNNによる特徴量を統合するFreqNetと呼ばれる手法を提案
✔️ 高周波表現と周波数畳み込み層の二つのモジュールを導入
✔️ たった190万個パラメータのネットワークでstate-of-th-artを達成

Frequency-Aware Deepfake Detection: Improving Generalizability through Frequency Space Learning
written by Chuangchuang Tan, Yao Zhao, Shikui Wei, Guanghua Gu, Ping Liu, Yunchao Wei
(Submitted on 12 Mar 2024)
Comments: 9 pages, 4 figures, AAAI24
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この研究では、図１に示したFreqNetを提案しました。従来の周波数特性を加味したCNNを用いたフェイク検知の場合、画像を周波数領域に変換し、それを入力としてCNNを訓練しリアルかフェイクを判定しました。一方で、FreqNetでは畳み込み層と周波数解析を組み合わせることで分類器を設計することで汎用的なフェイク検知モデルの設計を試みています。その結果、極めて少数のパラメータでstate-of-th-artを達成しました。

背景

ディープフェイク検知技術の現在地

近年、GANや拡散モデルなどのAI技術の著しい発展に伴って本物と見間違えるようなフェイク画像の生成が可能になってきています。ただし、注意しなければならないのは、本物と見間違えるほど高精度なフェイク画像の増加は、予想だにしない社会的影響をもたらす危険性もあります。これに対して、これまでも、様々なディープフェイク検知技術が検討されてきています。

しかし、既存のディープフェイク検知技術のほとんどが特定のドメインや生成モデルで作成された画像のみによって学習されたものです。その結果として、その検知性能はそのドメインに限定的です。この限界は、未知の生成モデルや新しいカテゴリーを含む未知のドメインに汎用的に機能することを著しく阻害するため、汎用的なディープフェイク検知技術の開発が強く望まれています。

GANによって生成された画像の周波数特性

ディープフェイクの文脈ではよく理解されていることですが、GANによって生成された画像は特徴的な周波数特性を持っています。図２にGANによって生成された画像の周波数解析の結果をまとめます。これによると、確かにGANによって生成された画像とリアルな画像を区別する上で、周波数特性が一つのヒントになり得ることが分かります。

一方で、それぞれのGANによって得られる画像の周波数特性を比較すると、似てはいるがそれぞれが異なった特徴を持っていることも分かります。これらの比較から、筆者らは周波数特性を基礎とする汎用的なディープフェイク検知技術の獲得の難しさを強調しました。

提案手法：FreqNet

問題設定：汎用的なディープフェイク検知技術を目指して

この研究中では、特定のドメインや生成モデルによるデータのみを使って、その他のドメインや生成モデルによるフェイク画像を汎用的に検知し得る手法を汎用的なディープ検知技術と定義付けています。

FreqNet

図３にこの研究の提案するFreqNetの概略を示しています。ここではそれぞれの要素について説明します。

(a) High-Frequency Representation of Image

これまでの研究で示唆されるように、リアル画像とフェイク画像を区別する上では、高周波（細かな部分）の画像の歪みが重要であると筆者らは指摘します。そのため、画像の高周波成分を抽出するため、入力画像に一度、高速フーリエ変換を施した後、ハイパスフィルターを用いて高周波成分のみを取り出し、再度高速逆フーリエ変換を施すことで画像の高周波成分を取り出すHFRI Blockを提案しました。

(b) High-Frequency Representation of Feature

続けて筆者らは、フェイク検知性能の汎用性をさらに高めるため、CNNが中間層として抽出する特徴量マップに関しても高周波成分に一貫して着目する仕組みを導入しました。特に、図３(b)に示したように、特徴量空間の空間方向$(W,H)$とチャネル方向($C$)のそれぞれに関して(a)で示したHFRI Blockと同様の要領で高周波成分を抽出する機構をCNNに組み込みました。

画像の周波数情報をフェイク分類器の学習に用いるアプローチの多くが、画像から周波数情報を抽出しそれをCNNなどの分類器の学習に用いる方針が取られます。しかし、このアプローチは分類器が訓練データの画像のもつ特異的な歪みにオーバーフィッティングする可能性があると筆者らは指摘します。筆者らは、フェイク検出器の汎化性能を向上させることを目的として、周波数空間学習を導入しました。

具体的には、畳み込み層の出力する特徴量を高速フーリエ変換によって周波数領域に変換し、その後、振幅スペクトルと位相スペクトルのそれぞれに対して畳み込み演算を行い、逆フーリエ変換で実空間に変換する操作を行います。これを、この研究ではFCLと呼んでいます。

実験結果

データセット

データセットはProGANによって作成された20カテゴリーに対する18000枚のフェイク画像で構成されているものを用いました。そのデータセットによって訓練し、その汎化性能を検証するために17種の生成モデルによって作成されたテストデータセットを用いて検証しました。表１と表２にこの研究の与えるフェイク検知モデルとこれまでの幾つかのモデルの比較を示しています。これらの結果は、いずれのテストデータセットに対しても、FreqNetが有効に機能していることを支持する結果です。また、それぞれのテストデータセットの平均の値に関しては多くの場合で、state-of-the-artを達成しています。

表２. それぞれのデータセットに対する幾つかのモデルと本研究の与えるモデルの性能の比較。

さらに、筆者らはモデルのパラメータ数に対しても言及しています。表３に幾つかの代表的なモデルのパラメータ数と精度の比較を示しています。興味深いことに、パラメータ数は著しく小さいにも関わらず、精度に関してはこれまでのモデルを凌駕している。これは、この研究の与えるFreqNetが今までのモデルよりも遥かに効率的にリアルとフェイクを分類し得ることを示唆しています。

加えて、筆者はFreqNetのそれぞれのコンポーネントに対するアブレーション分析を行いました。それぞれの、コンポーネントを削除することによって精度の悪化が確認されました。逆に言えば、それぞれのコンポーネントが適切に機能し精度向上に寄与していると考えられます。

最後に、筆者らは幾つかの画像に対するClass Activate Map (CAM)の可視化を行いました。この結果から、(a)と(b)に示したフェイク画像は画像中の局所的な特徴に強く反応しているのに対して、(c)に示したリアル画像に関しては、画像全体が平均的に反応していることが分かります。また、興味深いことに、この研究の訓練データとして用いたデータセットは車や猫、椅子、馬などで構成されるのに対して、顔じゃしんを効果的に認識できる能力を示している。これは、FreqNetの高い汎用性を示唆する結果です。

まとめ

筆者らは、様々な生成モデルによって作成されたフェイク画像を汎用的に検知する軽量なモデルとしてFreqNetを提案しました。FreqNetの顕著な特徴は、ネットワークの枠組みに周波数解析を陽に取り入れた点です。結果として、FreqNetは従来のモデルよりも遥かに少ないパラメータ数で、state-of-the-artを達成しました。これは、この研究で与える方針の有効性を支持するものです。

一方で、筆者らは主にGANによって作成されるフェイク画像に焦点を当てていますが、拡散モデルなどのその他の生成モデルによって作成された画像に対しても、FreqNetが機能するかは議論が残ります。今後、更なる汎用性の獲得のために拡散モデルなどによって作成された画像に対する展開が期待されます。