
使用 CLIP 进行深度伪造检测的新领域
三个要点
✔️ 利用基于 CLIP 的假冒伪劣检测技术达到最先进水平
✔️ 引入 CVaR 损失和 AUC 损失的新尝试
✔️ 研究使用 SAM 进行优化并提高泛化性能
Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images
written by Santosh, Li Lin, Irene Amerini, Xin Wang, Shu Hu
(Submitted on 19 Apr 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Image and Video Processing (eess.IV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本研究提出了一种稳健的方法,综合利用 CLIP 模型获得的图像和语言多模态信息,检测扩散模型生成的虚假图像。特别是,通过引入条件风险值(CVaR)损失和 ROC 曲线下面积(AUC)损失,为提高模型的泛化性能做出了新的尝试。
此外,还引入了使用锐度感知最小化(SAM)的参数优化,以确保方法的通用性。通过这些努力,作者的方法优于传统的基于 CLIP 的方法。
图 1 显示了这些方法的 AUC 与本研究和之前基于 CLIP 方法的概述的比较。结果表明,与之前的方法相比,本研究给出的方法具有极高的性能。

背景
扩散模型的发展使得人们能够生成极其精致的假图像。另一方面,由于其复杂性,生成模型给出的假图像对数字媒体的可信度造成了非常严重的问题。换句话说,作者指出,生成模型生成的假图像与真实照片几乎没有区别,因此会在政治、社会和个人等广泛领域破坏可信度。换句话说,建立一种方法来区分这些虚假图像和真实照片,从而提供一种技术来确保数字社会中的可信度,这不仅是人工智能研究领域面临的挑战,也是整个社会面临的挑战。
实验结果
建议方法
图 2 是本研究方法的概览。下文将简要介绍该方法的各个关键组成部分。

从文本和图像中整合多模态信息的特征设计。
本研究的基础网络是 CLIP。如图 2 所示,在本研究中,将图像和文本输入 CLIP,以提取与每种模态相对应的特征,然后将这些特征整合并输入 MLP 进行假冒检测。
损失函数的设计
本文试图通过以下损失函数进行优化。
下面将讨论方程中的各个项。另外,$\gamma$ 是一个超参数,决定了每个项的平衡。
条件风险值 (CVaR) 损失
CVaR 损失的设计是为了让模型集中处理数据集中最难的示例,其定义公式如下
在这个等式中,$ [a]_{+}=max\{0,a\}$ 。同时,$l$ 是分类的损失函数,${F_{i},Y_{i}}$ 是特征和类标签对。此外,$n$ 是数据总数,$\alpha$ 是超参数。该等式考虑了 $\lambda$ 的最小值,但随着 $\lambda$ 变小,非零的 $I$ 会依次从数据中增加,而第二项会增加损失 $L$。另一方面,对于${F_{i},Y_{i}}$小于阈值$\lambda$的数据,它被忽略。从这个意义上讲,可以说损失函数的目的是促进优化,关注会增加损失的数据。
AUC 损失
AUC 损失,顾名思义,旨在实现平等优化,直接有助于提高 AUC。定义包括
然而,在
其定义为式中,$\eta\in(0,1], p>1$ 和 $s(\theta; F_i)$ 表示评分函数。换句话说,该定义旨在增加阳性和阴性病例之间的差值,从而提高 AUC。
优化技术
在本研究中,锐度感知最小化(SAM)被视为一种优化技术。这种优化方法旨在寻找最小值附近的平坦参数,而不是简单地寻找损失函数的较小值。因此,该模型有望获得泛化性能。
实验结果
与基线比较
研究中用于验证的数据集是来自 LAION-400M 的真实图像和四张相应的伪造图像。假图像由 Stable Diffusion 1.4、2.1、XL 和 DeepFloyd IF 创建。作为验证基线,我们还使用了两种方法:根据CLIP(传统 1)中图像编码器给出的特征以及基于 CLIP 的文本和图像编码特征,通过二元交叉熵损失训练的 MLP进行假图检测。通过二元交叉熵损失训练的 MLP(传统 2)进行假货检测的方法已准备就绪。AUC 也被用作验证指标。
表 1 显示了各基线方法与本研究给出的方法之间的 AUC 比较。结果表明,本研究给出的方法比传统方法效果更好。

消融研究
作者对本研究中引入的每个项目都进行了消减研究,以确定 CVaR 损失、AUC 损失和 SAM 对提高性能的贡献程度。表 2 显示了每个项目的消融研究结果。结果显示,CVaR 损失、SAM 损失和 AUC 损失依次有助于提高 AUC 性能。

SAM 导致的损失函数景观变化。
作为补充,作者对使用 SAM 后损失函数的变化进行了可视化,目的是使 SAM 的效果可视化。图 3 显示了引入 SAM 后损失函数的变化。结果表明,引入 SAM 确实会导致选择一个周长平坦的最优解。

摘要
为了建立一种使用 CLIP 进行深度伪造检测的新方法,本研究提出了一种综合使用基于文本和图像特征的检测方法。特别是采用了融合了 CVaR 损失和 AUC 损失的损失函数,并通过 SAM 引入了参数优化,使这项研究卓尔不群。
本研究的重点是生成模型生成的虚假图像,但它是否能普遍适用于 GAN 生成的虚假图像将是未来讨论的重点。虽然作者雄心勃勃的尝试是有限的,但它在假图检测技术方面开辟了新天地,未来的发展值得期待。
与本文相关的类别