[FreqNet]通过频率空间学习进行通用深度假货检测

假货检测 29/07/2024

三个要点

✔️ 提出了一种名为 FreqNet 的方法，将频率信息和基于 CNN 的特征整合在一起
✔️ 引入了两个模块：高频表示和频率卷积层
✔️ 仅用 190 万个参数的网络就达到了最先进水平

Frequency-Aware Deepfake Detection: Improving Generalizability through Frequency Space Learning
written by Chuangchuang Tan, Yao Zhao, Shikui Wei, Guanghua Gu, Ping Liu, Yunchao Wei
(Submitted on 12 Mar 2024)
Comments: 9 pages, 4 figures, AAAI24
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

本研究提出了图 1 所示的 FreqNet。在使用考虑频率特性的 CNN 进行传统假货检测的情况下，图像被转换到频域，然后 CNN 将其作为输入进行训练，以判断图像的真假。另一方面，FreqNet 尝试通过结合卷积层和频率分析来设计分类器，从而设计出通用的假货检测模型。因此，只需很少的参数就能达到最先进的水平。

背景

深度防伪检测技术的现状

近年来，随着 GANs 和扩散模型等人工智能技术的显著发展，生成可被误认为是真的假图像成为可能。然而，值得注意的是，准确度高到可以被误认为是真的假图像的增加也带来了不可预知的社会后果的风险。为此，人们研究了各种深度防伪检测技术。

然而，大多数现有的深度防伪检测技术只能通过特定领域或生成模型创建的图像进行训练。因此，它们的检测性能仅限于该领域。这种限制严重阻碍了它们在未知领域（包括未知生成模型和新类别）中的普遍应用能力，因此开发通用的深度赝品检测技术是非常可取的。

由 GAN 生成的图像的频率响应

正如在深度伪造方面所熟知的那样，由 GAN 生成的图像具有特有的频率响应。图 2 总结了对 GAN 生成的图像进行频率分析的结果。这表明，频率响应的确可以作为区分 GAN 生成的图像和真实图像的线索。另一方面，对不同 GAN 生成的图像的频率特性进行比较后发现，它们具有相似但不同的特性。通过这些比较，作者强调了基于频率特性获得通用深度假图检测技术的难度。

拟议方法：FreqNet

问题集：实现通用的深度假货检测技术

在这项研究中，我们将通用深度检测技术定义为仅能使用来自特定领域或生成模型的数据，以通用方式检测来自其他领域或生成模型的伪造图像的方法。

FreqNet

图3 显示了本研究提出的 FreqNet 的示意图。本文将对每个元素进行描述。

(a) 图像的高频表示。

根据以往研究，作者指出高频（细节）图像失真对区分真假图像非常重要。因此，为了提取图像的高频成分，作者提出了快速反傅里叶变换块，即对输入图像进行一次快速傅里叶变换，使用高通滤波器仅提取高频成分，然后再次进行快速反傅里叶变换。

(b) 特征的高频表示。

作者继续引入了一种机制，作为中间层的 CNN 所提取的特征图始终关注高频成分，以进一步提高伪造检测性能的通用性。具体而言，如图 3(b)所示，在 CNN 中加入了一种机制，分别针对特征空间的空间方向 $(W,H)$ 和信道方向 ($C$)，以与(a)所示的 HFRI Block 相同的方式提取高频成分。

使用图像频率信息训练假分类器的大多数方法都遵循从图像中提取频率信息并用于训练分类器（如 CNN）的策略。然而，作者指出，这种方法可能会导致分类器过度适应训练数据中图像的特定失真。作者引入了频率空间学习，目的是提高伪造检测器的泛化性能。具体来说，卷积层输出的特征通过快速傅里叶变换转换到频域，然后分别对振幅和相位频谱进行卷积运算，并通过反傅里叶变换运算将其转换到实数空间。本研究将此称为 FCL。

实验结果

数据集

所使用的数据集包括由 ProGAN 生成的 20 个类别的 18 000 张假图像。该模型在该数据集上进行了训练，并使用 17 个不同生成模型创建的测试数据集进行了验证，以验证其泛化性能。表 1 和表 2 显示了本研究中给出的假图检测模型与之前几个模型的比较。这些结果证明，FreqNet 在这两个测试数据集上都表现良好。此外，就各测试数据集的平均值而言，FreqNet 在许多情况下都达到了最先进水平。

此外，作者还提到了模型中的参数数量。表 3 显示了几个具有代表性的模型的参数数量和准确性的比较。有趣的是，尽管参数数量明显较少，但该模型的准确性却优于之前的模型。这表明，本研究中给出的 FreqNet 在真假分类方面的效率远远高于之前的模型。

此外，作者还对 FreqNet 的每个组件进行了消融分析。在删除每个组件时，都观察到了精度的下降。相反，可以认为每个组件都能正常运行，并有助于提高精度。

最后，作者对几幅图像进行了类激活图（CAM）可视化。结果显示，（a）和（b）所示的假图像对图像中的局部特征反应强烈，而（c）所示的真实图像则对整个图像的平均特征反应强烈。有趣的是，本研究中用作训练数据的数据集也显示了有效识别人脸 jashin 的能力，而该数据集包括一辆汽车、一只猫、一把椅子和一匹马。这一结果表明，FreqNet 具有很强的通用性。