使用 CLIP 进行深度伪造检测的新领域

假货检测 30/08/2024

三个要点
✔️ 利用基于 CLIP 的假冒伪劣检测技术达到最先进水平
✔️ 引入 CVaR 损失和 AUC 损失的新尝试
✔️ 研究使用 SAM 进行优化并提高泛化性能

Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images
written by Santosh, Li Lin, Irene Amerini, Xin Wang, Shu Hu
(Submitted on 19 Apr 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Processing (eess.IV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

本研究提出了一种稳健的方法，综合利用 CLIP 模型获得的图像和语言多模态信息，检测扩散模型生成的虚假图像。特别是，通过引入条件风险值（CVaR）损失和 ROC 曲线下面积（AUC）损失，为提高模型的泛化性能做出了新的尝试。

此外，还引入了使用锐度感知最小化（SAM）的参数优化，以确保方法的通用性。通过这些努力，作者的方法优于传统的基于 CLIP 的方法。

图 1 显示了这些方法的 AUC 与本研究和之前基于 CLIP 方法的概述的比较。结果表明，与之前的方法相比，本研究给出的方法具有极高的性能。

背景

扩散模型的发展使得人们能够生成极其精致的假图像。另一方面，由于其复杂性，生成模型给出的假图像对数字媒体的可信度造成了非常严重的问题。换句话说，作者指出，生成模型生成的假图像与真实照片几乎没有区别，因此会在政治、社会和个人等广泛领域破坏可信度。换句话说，建立一种方法来区分这些虚假图像和真实照片，从而提供一种技术来确保数字社会中的可信度，这不仅是人工智能研究领域面临的挑战，也是整个社会面临的挑战。

实验结果

建议方法

图 2 是本研究方法的概览。下文将简要介绍该方法的各个关键组成部分。

从文本和图像中整合多模态信息的特征设计。

本研究的基础网络是 CLIP。如图 2 所示，在本研究中，将图像和文本输入 CLIP，以提取与每种模态相对应的特征，然后将这些特征整合并输入 MLP 进行假冒检测。

损失函数的设计

本文试图通过以下损失函数进行优化。

下面将讨论方程中的各个项。另外，$\gamma$ 是一个超参数，决定了每个项的平衡。

条件风险值 (CVaR) 损失

CVaR 损失的设计是为了让模型集中处理数据集中最难的示例，其定义公式如下

在这个等式中，$ [a]_{+}=max\{0,a\}$ 。同时，$l$ 是分类的损失函数，${F_{i},Y_{i}}$ 是特征和类标签对。此外，$n$ 是数据总数，$\alpha$ 是超参数。该等式考虑了 $\lambda$ 的最小值，但随着 $\lambda$ 变小，非零的 $I$ 会依次从数据中增加，而第二项会增加损失 $L$。另一方面，对于${F_{i},Y_{i}}$小于阈值$\lambda$的数据，它被忽略。从这个意义上讲，可以说损失函数的目的是促进优化，关注会增加损失的数据。

AUC 损失

AUC 损失，顾名思义，旨在实现平等优化，直接有助于提高 AUC。定义包括

然而，在

其定义为式中，$\eta\in(0,1], p>1$ 和 $s(\theta; F_i)$ 表示评分函数。换句话说，该定义旨在增加阳性和阴性病例之间的差值，从而提高 AUC。

优化技术

在本研究中，锐度感知最小化（SAM）被视为一种优化技术。这种优化方法旨在寻找最小值附近的平坦参数，而不是简单地寻找损失函数的较小值。因此，该模型有望获得泛化性能。

实验结果

与基线比较

研究中用于验证的数据集是来自 LAION-400M 的真实图像和四张相应的伪造图像。假图像由 Stable Diffusion 1.4、2.1、XL 和 DeepFloyd IF 创建。作为验证基线，我们还使用了两种方法：根据CLIP（传统 1）中图像编码器给出的特征以及基于 CLIP 的文本和图像编码特征，通过二元交叉熵损失训练的 MLP进行假图检测。通过二元交叉熵损失训练的 MLP（传统 2）进行假货检测的方法已准备就绪。AUC 也被用作验证指标。

表 1 显示了各基线方法与本研究给出的方法之间的 AUC 比较。结果表明，本研究给出的方法比传统方法效果更好。