低品質な圧縮画像に強い！周波数領域の特徴量を活用したDeepfake検出モデル「F3-Net」

Face Recognition 2020年11月04日

3つの要点
✔️ 周波数領域の特徴量を用いて顔の偽造を検出するモデルF³-Netを提案
✔️ FaceForensics ++（FF ++）データセットで従来のモデルに比べて高い性能を達成
✔️ 特に低解像度な圧縮画像において大幅に性能が向上

On Disentangling Spoof Trace for Generic Face Anti-Spoofing
written by Yaojie Liu, Joel Stehouwer, Xiaoming Liu
(Submitted on 17 Jul 2020)
Comments: Accepted at ECCV2020
Subjects: Computer Vision and Pattern Recognition (cs.CV)
Paper Official Code COMM Code

導入

ディープラーニングの急速な発展によって、人間でも識別できない顔画像の生成や編集による偽造ができるようになっています。悪意のあるフェイクニュースなどに利用され、それを信じてしまうことによって悪影響を受ける人もたくさんいます。

多くの企業が偽造検出技術の開発が極めて重要な研究テーマと考えており、Facebookをはじめ、MicrosoftやAmazonなどを中心に、データセットの整備やコンペティションの開催を行うなど、積極的な取り組みを見せています。

しかし、同時にDeepFake、FaceSwap、Face2Face 、NeuralTexturesなど顔を偽造する技術も発展しているため、偽造検出は非常に困難になっています。さらに、SNSなどで投稿する際など、一般的に動画像を目にする時はJPEGやH.264などで画像が大幅に圧縮されており、動画像の品質が著しく劣化していることがほとんどです。そのため、偽造パターンが圧縮誤差によってボヤけてしまい、特にRGB領域では検出が難しくなっています。

これに対して、多くの先行研究で周波数領域の特徴量が利用できることは分かっていますが、CNNモデルで周波数領域の特徴量を効果的に組み込むか方法はあまり研究されていませんでした。例えば、従来のFFTとDCTは、変換の不変性と局所情報の一貫性を満たさないため、CNNに直接適用することが現実的ではない可能性があります。

この論文では、これらを解決するために、CNNに組み込み可能な周波数領域の特徴量を利用するFace Forgery Network（F³-Net）という新しいモデルを提案しています。その結果、FaceForensics++（FF++）を用いた検証で、認識精度が従来のSOTAのモデルよりも約4％優れていることを示しています。周波数領域の特徴を扱うことで、特に圧縮された低解像度の動画像で大幅に改善することがわかりました。

続きを読むには

(4313文字画像12枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。