
微调 TEXT-TO-IMAGE 扩散模型以生成虚假特征
三个要点
✔️ 虚假图像有助于衡量分类器的可靠性
✔️从互联网上过滤大量虚假图像以找到 更多虚假特征非常耗时
✔️ TEXT-TO-IMAGE 扩散模型微调建议生成虚假图像的方法
Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation
written by AprilPyone MaungMaung, Huy H. Nguyen, Hitoshi Kiya, Isao Echizen
(Submitted on 13 Feb 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
深度神经网络(DNN)在视觉识别、自然语言处理和语音识别方面取得了最先进的成果。然而,对 DNN 进行评估并非易事,尤其是在乳腺癌筛查和自动驾驶等更重要的领域。
通常,图像分类器的性能是在一个固定的测试集上进行评估的,而这个测试集可能与真实世界的操作不同。例如,ImageNet 测试集不能反映真实世界的性能。
为了更好地评估分类器,最近备受关注的一种方法是使用虚假特征和虚假图像。杂散特征可以简单地理解为经常与图像的主要特征一起出现的特征。
例如,牛群图像通常包含草原,蜂鸟图像通常包含红丹参花。在这里,牛和蜂鸟是主要特征,而草原和红丹参花则是虚假特征。具有虚假特征的图像被视为虚假图像。
如果一个类别只与虚假特征相关联,就会造成捷径学习。例如,如果一个模型使用红丹参花特征对蜂鸟进行分类,那么一张只有红丹参花的照片可能很容易被模型分类为苍蝇,反之,一张没有红丹参花而只有蜂鸟的照片可能会被分类为蜂鸟。因此,评估具有虚假特征的DNN对于安全关键型应用非常重要。
最近的研究通过检测大型数据集(如 ImageNet)中的虚假特征,引入了 Spurious ImageNet。然而,研究发现,并非 Spurious ImageNet 中的所有图像都具有不同分类器的虚假特征(图 1)。此外,从互联网上过滤具有虚假特征的图像是一项耗时的任务。

本文介绍的论文提议利用 Stable Diffusion 的大规模 "文本到图像"(Text-to-Image)模型来生成具有不同分类器的虚假特征的图像。其目的是对 "虚假图像网络"(Spurious ImageNet)进行补充。
技术
概述

给定特定类别的一些虚假图像,目的是在不同的分类器中为这一特定类别生成新的虚假图像。图 2 展示了文本到图像扩散模型的微调框架。
该框架基于 DreamBooth [Ruiz et.al, 2023],但与 DreamBooth 的主要区别在于增加了新的损失,并对文本编码器和噪声预测器进行了联合微调。新损失是根据杂散图像和非杂散图像之间的相似性计算得出的,有助于生成杂散特征。下文各小节将详细介绍。
稳定扩散和学习损失
扩散模型是一种生成模型,包括两个过程:扩散过程和反向扩散过程。
在扩散过程中,输入图像会逐渐加入噪声,直至变成高斯噪声。这一过程是预定义的,并用作反向扩散过程的监督数据。而反向扩散过程则是从完整的噪声中逐渐去除噪声,直至恢复原始图像。
每一步都要学习反变换(预测添加的噪声)。这意味着在学习了反向扩散过程后,就可以从完整的噪声中生成图像。
此外,当与文本输入条件相结合时,还可以实现文本到图像的生成模型:稳定扩散模型(Stable Diffusion)[Rombach et.al, 2022]是潜空间中广为人知的大规模文本到图像扩散模型,它可被认为是一种模型。
给定文本条件 y(即文本提示),学习的损失函数为

其中,ϵ 和ϵ_θ 为添加噪声和预测噪声,τθ 为文本编码器。
稳定扩散的个性化
给定主体图像后,个性化的理念是将主体嵌入稳定扩散输出域,并合成主体在不同情境下的新表征。经过个性化处理后,就可以生成新的主体图像。
本文中的个性化方法是调整稳定扩散,在不过度拟合少量参考图像或丢失先前知识的情况下,将主体的新信息整合到输出域中。
该技术与 DreamBooth 类似,都是利用包含唯一标识符的参考图像(例如 [identifier] 中的花朵照片)和文本提示对图 2 中的噪声预测 U-Net 进行微调。为了保留先验知识,我们引入了特定类别的先验损失(PPL),如公式 2 所示。

x′ 是预训练稳定扩散生成的图像,带有文本提示(如[类]的照片),不包含[标识符]。由等式 1 和 2 中的损失函数合成的总体损失函数为其中,λ 是一个超参数。

虚假特征相似性损失
还提出了杂散特征相似性损失(SFSL),以促进杂散特征的生成。
如图 2 所示,训练有素的模型用于估算参考图像和生成图像中的虚假特征。本文所描述的就是一个经过训练的 Spurious ImageNet 模型。根据类别k、输入图像x 和Spurious ImageNet 最后一层的特征 j(x),利用以下公式计算出特征。

杂散特征相似性损失(SFSL)是根据参考图像的杂散特征和生成图像的杂散特征的余弦相似性 S_C 计算得出的。

将方程 3 中的损失与 κ超参数合成,就能得到方程 6 所示的拟议方法的最终损失函数。

试验
数据集和分类器
实验中使用了Spurious ImageNet数据集。该数据集包含 100 个类别。
每个类别有 75 幅分辨率为 367 x 367 的虚假图像,共计 7,500 幅图像。如上所述,并非 Spurious ImageNet 中的所有图像在不同分类器中都是一致的虚假图像。
因此,我们为以下四个分类器的每个测试类别选择了六幅全部为假图像:ResNet-50(PyTorch 版本 1 和 2)[Heet.al, 2016]、鲁棒性 ResNet-50[Croce et.al, 2022]、ViT-B/16[Steiner等人,2022]。
杂散精度
从每个测试类别中抽取 75 幅图像,用四种分类器(ResNet-50 V1 和 V2、Robust ResNet-50 和 ViT-B/16)与虚假图像网络进行比较,以观察虚假类别的准确性。生成的 75 幅图像是随机抽取的。
表 1 总结了虚假准确率结果,其中 SI 表示 "虚假 ImageNet"。对于除 "旗杆 "以外的所有测试类别,不同分类器生成的图像具有更多的虚假特征。这表明,在评估现有 ImageNet 分类器的虚假性能时,所提出的方法与 Spurious ImageNet 是互补的。
建议的方法可用于创建更稳健的虚假测试数据集。

本文是利用大规模文本到图像扩散模型生成虚假图像的首次尝试。因此,无法与其他方法进行直接比较。
不过,由于该方法是建立在梦ooth 的基础上的,因此在此将与梦ooth 进行比较。表 2 比较了四种分类器中六个类别的平均虚假准确率。由于 DreamBooth 和文本编码器的联合训练,生成的图像具有更多的虚假特征。
添加拟议的虚假特征相似性损失(SFSL)进一步提高了虚假特征的准确性。据观察,超参数 κ 会因类别不同而产生不同的影响。因此,κ 值需要根据目标类别进行调整。

感知质量
最新的感知图像质量评估指标 TOPIQ [Chen et.al, 2023] 被用来客观测量生成的虚假图像的感知质量。
表 3 总结了客观评估结果,其中计算了每个类别的 6 幅图像(所有训练图像)和 75 幅图像(生成图像)的 TOPIQ 分数。在 "蜂鸟 "和 "考拉 "类别中,生成图像的得分接近真实图像。但是,其他类别的得分较低。
为了进一步评估虚假生成图像的质量,我们在下面的小节中进行了主观评估。

主观评价
十名用户(研究人员、学生和非技术人员)接受了主观评分。每类用户随机展示十张图片(包括真实图片和生成图片),并根据自然度要求用户给出 1 到 5 分的评分。
图 3 总结了主观评分结果。平均而言,46.33% 的用户给真实图像打了最高分 5 分(非常自然),20% 的用户给生成图像打了 5 分。由此可见,一些生成的图像是自然逼真的。

我们还对生成的全部六类图像进行了人工检查,在一些图像中发现了漫反射伪影。图 4 显示了所选生成图像与 Spurious ImageNet 图像的对比。不过,由于生成模型没有生成上限,因此可以通过不同的配置对许多图像进行采样,以获得令人满意的图像。

最后
本文表明,如果从 "虚假图像网络"(Spurious ImageNet)中获取一些虚假图像,就可以对稳定扩散进行微调,以利用新的虚假特征相似性损失。
建议的方法节省了过滤大量图像以查找虚假特征的时间。因此,在准备虚假特征测试数据集时,所提出的方法是对 Spurious ImageNet 的补充。实验证实,生成的图像在不同分类器中都是虚假的,并且在视觉上与 Spurious ImageNet 图像相似。
与本文相关的类别