最新AI論文をキャッチアップ

周波数マスクによる次世代ディープフェイク検出技術

周波数マスクによる次世代ディープフェイク検出技術

Fake Detection

3つの要点
✔️ 周波数マスキングによるData Augumentationを考察
✔️ ディープフェイク検出の汎化性能を一般的に向上させることに貢献

✔️ 実験によって検証した全てのモデルに対して有効であることを実証

Frequency Masking for Universal Deepfake Detection
written by Chandler Timm DolorielNgai-Man Cheung
(Submitted on 17 Jan 2024)
Comments: Accepted to IEEE ICASSP-2024

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

この研究では、周波数マスキングを利用したData Augumentationのディープフェイク画像検出の文脈における効果を議論しています。特に、画像の実空間と周波数空間におけるマスキングを検討し、フェイク検知技術の汎化性能向上に有効であることを実証しました。

背景

社会課題としてのフェイク画像検知

近年、拡散モデルなどを基礎とするAI技術の著しい発展に伴って人間でも判別することが難しいようなフェイク画像の生成が可能になってきています。同時にそれは、現代社会における情報の信頼性を揺るがす社会的な問題です。例えば、有名人による政治的・社会的発言の捏造などにつながるリスクを孕んでいます。そのため、AIによって生成された画像であるか、本物の画像であるかを見破る汎用的な方法の確立が求められています。

汎用的なフェイク画像検知の難しさ

近年のAIを用いた画像生成の技術は多岐に渡ります。その生成モデルの多様さが、「汎用的な」フェイク画像検知技術の確立を困難にしています。これまで、多くの研究でAIを用いることでAIによって生成されたフェイク画像を検知できることが示されていますが、その汎化性能は限定的です。この研究は、フェイク検知技術の汎化性能を高めるために、周波数マスキングを提案しその有効性を実験によって実証しました。その一般性は驚くものであり、いずれのモデルを採用する場合にも導入を検討することができ、次世代ディープフェイク技術の基礎になると考えられます。 

方法

図1にこの研究の提案するマスキングの概要を示しています。以下では、画像の実空間と周波数空間におけるそれぞれのマスキングについて説明します。

図1. 提案するマスキングの概要図。(a) 実空間におけるマスキング。(b) 周波数空間におけるマスキング。

実空間におけるマスキング

論文中では、実空間におけるマスキングとして、(i) Patch Maskingと(ii) Pixel Maskingの二つが言及されている。前者は、$p\times p$ピクセルの正方形領域を、後者は1ピクセルをマスキングの対象とする方法です。図1の(a)に実空間でのマスキングの例が示されています。このように、画像中でそれぞれのマスキング領域に対してランダムにマスキング処理(黒で塗り潰す)を施します。この発想が次の、周波数領域におけるマスキングの基礎となります。

周波数空間におけるマスキング

上述の実空間でのマスキングを参考として、筆者らは周波数領域におけるマスキング処理を導入しました。筆者らは、高速フーリエ変換を施した画像に対して(i) 低周波領域 (Low)、(ii) 中周波領域 (Mid)、(iii) 高周波領域 (High)、(iv) 全領域 (All)の4つの領域を対象としてマスキング領域を設定しました。それぞれの対象領域に対して、特定の割合でランダムにある周波数の強度をゼロに設定することでマスキング処理を施します。低周波領域は画像中の比較的大きな構造に対応し、中周波領域は画像の質感やより細かな特徴、高周波領域は画像中のノイズやエッジなどに対応します。高周波領域の特徴はそこまで重要ではないかと思いますが、生成モデルによって作成された画像は小さなアーティファクト(データの歪み)を含んでいることがあるため、高周波成分が検知の鍵になる可能性があると筆者らは指摘します。 

実験結果

データセット

この研究中では、ProGANを用いて作成されたフェイク画像によって構成されるデータセットを訓練に用いました。さらに、様々なモデル(ProGAN、CycleGAN、BigGAN、StyleGAN、GauGAN、StarGAN、SITD、SAN、CRN、IMLE、Guided Diffusion、Latent Diffusion, DALL-Eなど)によって作成されたフェイク画像で訓練されたモデルを検証しました。

それぞれのマスキング処理の比較

図2にそれぞれのマスキング処理の比較の概要を示しています。興味深いことに、Pixel MaskingとPatch Maskingを比較するとPatch Maskingの方が優れていることがわかります。また、実空間におけるマスキングよりも周波数空間におけるマスキングの方がさらに優れていることが示唆されます。

図2. それぞれのマスキング処理の比較。

また、 筆者らはマスキングする領域の割合の検知精度に与える影響についても議論しています。表1にマスキング処理の割合を変化させた時のフェイク検知精度をまとめたものを示します。幾つかの割合を比較した結果、15%の割合でマスキング処理を施した場合が最も精度が高いようです。そのため、筆者らはそれをマスキング処理の基準の割合と設定しました。

表1. マスキング処理を施す領域の割合によるフェイク検知精度への影響。

マスキング処理の対象とする周波数領域による比較

さらに、筆者らはマスキング処理の対象とする周波数領域によってフェイク検知精度にどのような影響があるかを検討しました。表2にマスキング処理を施す周波数領域に関する精度比較をまとめたものを示しています。この結果は、フェイク画像の作成に使用された生成モデルによって特徴を持っている周波数帯に違いがあることを示唆する興味深い結果です。同時に、フェイク画像検知の汎化性能の向上が難しいことを暗に示している結果とも言えます。

表2. 周波数マスキングの対象とする周波数領域によるフェイク検知精度への影響。

State-of-the-artに適用した時の性能

最後に、筆者らはこの研究の集大成として、State-of-the-art(SOTA)に筆者らの提案する周波数マスキングを組み合わせることでその有効性を議論しています。表3に、それぞれの検証データセットに対する検証結果をまとめています。また、それらの精度の平均を表3右に示しています。重要なことに、この表中に赤字で示されているように筆者らの周波数マスキングを適用することで、SOTAの精度が堅牢に向上していることが確認できます。この結果は筆者の提案する周波数マスキングが一般的にフェイク検知精度を向上し得るData Augumentationの手法であることを示唆しています。つまり、周波数マスキングの結果、モデルが画像の表層的な特徴に引っ張られることなく、フェイク画像検知の文脈で重要な特徴量を適切に選択することができると考えられます。

表3. 周波数マスキングによるそれぞれのモデルによる精度の変化。

まとめ

筆者らは、近年のマスキング処理によるモデルの精度向上に動機付けられ、フェイク画像検知の文脈で周波数マスキングの有効性について議論しました。その結果、周波数マスキングは様々な生成モデルで作成されたフェイク画像に対して一般的にフェイク検知モデルの精度向上に寄与することが示唆されました。 また、採用するモデルに寄らず堅牢に機能しました。この結果は、周波数マスキングが汎用的なフェイク検知ツールを下支えする一般的なData Augmentationとして機能することを示しており、今後、様々なモデルで導入が期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする