ディープフェイク検出の自己教師ありViT

self-supervised learning 2024年07月29日

3つの要点
✔️ 生成モデルの急成長により、多くの分野ではディープフェイク検出需要が高まっている
✔️ 他のタスクでの成功にもかかわらず、データと計算リソースの高い要求から、ViTsはディープフェイク検出において十分に活用されていない
✔️ 限られた訓練データでの一般化に重点を置き、ディープフェイク検出において、自己教師ありViTsの適応性と効率性を検証した

Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis
written by Huy H. Nguyen, Junichi Yamagishi, Isao Echizen
(Submitted on 1 May 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

今回の解説論文では、自己教師ありで事前学習されたトランスフォーマーが、ディープフェイクの検出において、教師ありで事前学習されたトランスフォーマーや従来のニューラルネットワーク（ConvNets）と比較してどれほど効果的であるかを調査します。

特に、訓練データが限られている場合における一般化の改善可能性に焦点を当てます。トランスフォーマーアーキテクチャを利用した大規模な視覚言語モデルが、ゼロショットおよび少数ショット学習を含むさまざまなタスクで顕著な成功を収めているにもかかわらず、ディープフェイク検出の分野では、大規模なものを含む事前学習されたビジョントランスフォーマー（ViT）を特徴抽出器として採用することに依然として抵抗があります。

その懸念の一つは、過度のキャパシティが要求されることが多く、訓練または微調整のデータが少ないか多様でない場合に最適な一般化が得られないことです。これは、既に堅牢な特徴抽出器としての地位を確立しているConvNetsとは対照的です。さらに、トランスフォーマーをゼロから訓練し最適化するには多大な計算リソースが必要であり、これは主に大企業に限られ、学術コミュニティ内での広範な調査を妨げています。

DINOおよびその派生物など、トランスフォーマーにおける自己教師あり学習（SSL）の最近の進歩は、さまざまな視覚タスクでの適応性を示しており、明確なセマンティックセグメンテーション能力を備えています。DINOを用いたディープフェイク検出では、限られた訓練データと部分的な微調整を実装することで、タスクへの適応性とAttentionメカニズムによる検出結果の自然な説明可能性を確認しました。さらに、ディープフェイク検出のためのトランスフォーマーの部分的微調整は、リソース効率の高い代替手段を提供し、計算リソースを大幅に削減できます。

提案手法

問題の定式化

基本的な二値分類問題として、入力画像 $ I $ と分類器ヘッドが削除された事前学習済みバックボーン $ B $ が与えられた場合、目的は $ B $ を利用して $ I $ を「本物」または「偽」のいずれかとして分類するネットワーク $ F $ を構築することです。これは次のように表現できます。

ここで、$σ(·)$ はシグモイド関数であり、$F(B(I))$ の出力を [0, 1] の範囲の確率にマッピングします。また、$τ$ はしきい値です。

$F$ によって抽出されたロジットを確率に変換するためにソフトマックス関数を使用することもできますが、ソフトマックスを使用することで、二値分類から多クラス分類への拡張が容易になります。バックボーン $B$ は前処理モジュールで始まり、$n$ ブロックで構成されます。簡単のため、ブロック$ i$ によって抽出された $I$ の中間特徴を $ϕ_i$と表します。$τ$ の値に関しては、その最適値を決定する方法は論文ごとに異なる場合があります。本論文では、実験設定に応じて、$τ$ を 0.5 または検証セットで計算された等エラー率（EER）に対応するしきい値に設定します。

アプローチ 1: 凍結されたバックボーンをマルチレベル特徴抽出器として使用する

このアプローチでは、中間特徴 $ϕ_i$ は、適応器 A（オプション）によってさらに処理され、特徴融合操作 $Σ$ を介して他のブロックによって抽出された他の中間特徴と融合された後、一般的には線形の分類器 $C$によって分類されます。このアプローチは、図1の左側となります。バックボーン $B$ は凍結されたままです。$k$ 個の最終的なブロックによって抽出された $k$ 個の最終的な中間特徴を利用します。これは以下のように形式化されます。

アプローチ 2: 最後のトランスフォーマーブロックのファインチューニング

このアプローチは、アプローチ1よりも直接的です。図1（右）のように、バックボーン$B$の後に新しい分類器$C$を追加します。これは、以下のように形式化できます。

ファインチューニング中、最初の $n - k$ ブロックが凍結されます。トランスフォーマーバックボーンに関しては、クラス（CLS）トークンとレジスタートークン（存在する場合）も凍結解除され、新しい分類器 $C$ と一緒に凍結解除された $k$ 個の最終ブロックとともにファインチューニングされます。このアプローチの2つの主要な利点は、次のとおりです:

適応器Aおよび特徴融合操作 $Σ$ に追加のパラメータはありません。最近の特徴抽出器、特にトランスフォーマーのサイズが既に十分に大きいため、追加のパラメータを避けることは有利です。
（トランスフォーマーバックボーンの場合）最終トランスフォーマーブロックとトークンがファインチューニングされているため、CLSトークンへのAttentionの重みがディープフェイク検出に適応されます。これらは、DINOで使用されている可視化技術と同様に、焦点を当てる領域を自然に可視化するために使用できます。この改善により、検出器の説明可能性が向上し、ディープフェイクの検出における重要な要因となります。

実験

データセットと評価指標

様々なディープフェイク手法によって生成または操作された画像を収集し、それらを用いてデータセットを構築しました。トレーニング、検証、およびテストセットの詳細は、表1に示されています。データセットは、実際の画像と偽の画像の比率、およびトレーニング方法ごとの画像数に関してバランスが取れるように設計され、重複しないように保証されています。
クロスデータセットの評価には、拡散ベースの手法によって生成または操作された画像が含まれるTantaruらによって構築されたデータセットが使用されました。トレーニングセットはモデルのトレーニングまたはファインチューニングに使用され、検証セットはハイパーパラメータの選択に使用されます。そして、テストセットは評価と比較に使用されます。

評価指標に関しては次のものを利用しました。

分類精度$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $、ここで、$ TP $ は真陽性、$ TN $ は真陰性、$ FP $ は偽陽性、$ FN $ は偽陰性です。
真陰性率（TNR）$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $
等価誤り率（EER）: 偽陽性率（FPR）が偽陰性率（FNR）と等しくなるときの値
半合計誤り率（HTER）$ \text{HTER} = \frac{FPR + FNR}{2} $

アプローチ 1の実験結果

ディープフェイク検出は、アーティファクトや不規則なパターンなどのディープフェイクの指紋を特定する作業です。CLSトークンに完全に頼ることは最適ではないため、最終ブロックだけでなくパッチトークンや複数の中間特徴を取り入れた効果を評価しました。また、加重和（WS）と連結（concat）の2つの特徴融合技術のパフォーマンスも比較しました。結果は、DINOバックボーンの異なるサイズについても検証され、表2に示されています。

表2. 様々なバージョンとアーキテクチャのDINOをバックボーンに用いたアプローチ1のモデルのEER

ここでは、「大きいほど良い」という原則が適用されます。大きなバックボーンサイズは一般的に低いEERをもたらします。すべてのトークンを利用すると、CLSトークンに完全に依存するよりもはるかに良い結果が得られます。また、複数のブロックを利用する方が単一のブロックを使用するよりも性能が向上しますが、kが増加すると下流モジュールのトレーニングがより難しくなることがあります。特徴の連結は、加重和を利用するよりも良い結果をもたらします。DINOとDINOv2の間には一般的にパフォーマンスの識別可能な違いはありませんが、DINOにおいては、大きなパッチサイズと小さなパッチサイズの使用には明確なパフォーマンスの違いがありません。

表3．SSLで事前学習されたDINOv2 - ViT-L/14-Regをバックボーンとするアプローチ1の強化

DINOv2 - ViT-L/14-Regを選択しました（パフォーマンスとモデルサイズのバランスが理由です）。特徴の次元削減と特徴の連結を可能にするために、簡単な線形アダプターが使用されました。また、過学習を軽減するためにドロップアウトが適用されました。結果は表3に示されています。

最適な構成では、ドロップアウトと線形アダプター、および特徴の連結を併用します。この最適な構成をEfficientNetV2、DeiT III、およびEVA-CLIPに適用し、そのパフォーマンスをDINOv2と比較しました。結果は表４に表示されています。DINOv2は、EfficientNetV2とDeiT IIIを明確に凌駕し、EVA-CLIPも優れたパフォーマンスを発揮しました。これらの結果は、SSLを事前トレーニングに使用することの利点を強調し、複数のタスクに適用可能な優れた表現を学習することを可能にします。

アプローチ２の実験結果

DINOv2 - ViT-L/14-Regを、アプローチ1で詳細に検証されたDINOv2の代表として選択しました。同様に、比較のためにEfficientNetV2、DeiT III、およびEVA-CLIPを選択しました。最終ブロック（およびトランスフォーマーの場合はトークンも）を微調整した場合のパフォーマンスは、表５に示されています。アプローチ1と比較して、すべてのモデルがより良い結果を示し、DINOv2と他のモデルとのパフォーマンスの差が縮小しましたが、EVA-CLIPが最も近い競合相手でした。

それでも、DINOv2がトップパフォーマーのままでした。DINOv2との差を縮めるためには、EVA-CLIPは豊富な注釈付きの広範なデータセットで事前にトレーニングする必要があります。これは、注釈のないかなり小さなデータセットで事前にトレーニングされたDINOv2と比較して、費用がかかる作業です。同じアーキテクチャ（DeiT IIIとDINOv2）を持つ場合、EERの観点からのパフォーマンス差はほぼ6％です。異なるトレーニングデータの一部によって、この差異の一部が引き起こされる可能性があります。全体的に、これらの結果は、ViTの事前トレーニングにSSLを使用することの重要な利点を再度強調しています。

表５．アプローチ2におけるConvNetとトランスフォーマーのアーキテクチャの比較。

クロス・データセット検出

この実験では、未知のディープフェイクを検出するための検出器の汎化能力を評価しました。このシナリオは厳しい競争を確認されます。なぜなら、トレーニングセットには拡散画像が含まれていなかったからです。分類の閾値は、未知の検証セットを使用して再キャリブレーションされました。結果は表６に示されています。特筆すべきは、すべてのモデルのパフォーマンスに低下が見られたことです。最高のパフォーマーは、EERの観点で11.32％から27.61％に低下しました。

全体として、アプローチ2が一貫してアプローチ1を上回りました。アプローチ2内では、EfficientNetV2が他の監視された事前トレーニング済みトランスフォーマーよりも優れた汎化能力を示しました。DINOv2はトップのパフォーマーとしてその地位を維持し、ViTでSSLを使用する優位性を再確認しました。

表６. 拡散に基づく手法で生成または操作された画像からなる未使用テストセットにおける、様々なConvNetおよび変換器アーキテクチャ間の性能比較

結論

今回の解説論文では、SSLで事前にトレーニングされたViTs、特にDINOを、ディープフェイク検出のための特徴抽出器として利用するための2つのアプローチを提案しました。最初のアプローチは、凍結されたViTバックボーンを使用してマルチレベルの特徴を抽出することを含みました。一方、2番目のアプローチは、最終のkブロックの部分的なファインチューニングを行うことを含んでいました。

複数の実験を通じて、ファインチューニングアプローチが優れたパフォーマンスと解釈可能性を示していることがわかりました。このの研究結果は、ディープフェイク検出においてSSLで事前にトレーニングされたViTsを特徴抽出器として利用する際に、デジタルフォレンジックコミュニティに貴重な示唆を提供します。