微调 TEXT-TO-IMAGE 扩散模型以生成虚假特征

图片识别 13/03/2024

三个要点
✔️ 虚假图像有助于衡量分类器的可靠性
✔️从互联网上过滤大量虚假图像以找到更多虚假特征非常耗时
✔️ TEXT-TO-IMAGE 扩散模型微调建议生成虚假图像的方法

Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation
written by AprilPyone MaungMaung, Huy H. Nguyen, Hitoshi Kiya, Isao Echizen
(Submitted on 13 Feb 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

深度神经网络（DNN）在视觉识别、自然语言处理和语音识别方面取得了最先进的成果。然而，对 DNN 进行评估并非易事，尤其是在乳腺癌筛查和自动驾驶等更重要的领域。

通常，图像分类器的性能是在一个固定的测试集上进行评估的，而这个测试集可能与真实世界的操作不同。例如，ImageNet 测试集不能反映真实世界的性能。

为了更好地评估分类器，最近备受关注的一种方法是使用虚假特征和虚假图像。杂散特征可以简单地理解为经常与图像的主要特征一起出现的特征。

例如，牛群图像通常包含草原，蜂鸟图像通常包含红丹参花。在这里，牛和蜂鸟是主要特征，而草原和红丹参花则是虚假特征。具有虚假特征的图像被视为虚假图像。

如果一个类别只与虚假特征相关联，就会造成捷径学习。例如，如果一个模型使用红丹参花特征对蜂鸟进行分类，那么一张只有红丹参花的照片可能很容易被模型分类为苍蝇，反之，一张没有红丹参花而只有蜂鸟的照片可能会被分类为蜂鸟。因此，评估具有虚假特征的DNN对于安全关键型应用非常重要。

最近的研究通过检测大型数据集（如 ImageNet）中的虚假特征，引入了 Spurious ImageNet。然而，研究发现，并非 Spurious ImageNet 中的所有图像都具有不同分类器的虚假特征（图 1）。此外，从互联网上过滤具有虚假特征的图像是一项耗时的任务。

图 1.虚假图像示例；Spurious ImageNet 数据集中的一些图像被检测为 "蜂鸟"，但却被归类为 "threadfinch"。

本文介绍的论文提议利用 Stable Diffusion 的大规模 "文本到图像"（Text-to-Image）模型来生成具有不同分类器的虚假特征的图像。其目的是对 "虚假图像网络"（Spurious ImageNet）进行补充。

技术

概述

给定特定类别的一些虚假图像，目的是在不同的分类器中为这一特定类别生成新的虚假图像。图 2 展示了文本到图像扩散模型的微调框架。

该框架基于 DreamBooth [Ruiz et.al, 2023]，但与 DreamBooth 的主要区别在于增加了新的损失，并对文本编码器和噪声预测器进行了联合微调。新损失是根据杂散图像和非杂散图像之间的相似性计算得出的，有助于生成杂散特征。下文各小节将详细介绍。

稳定扩散和学习损失

扩散模型是一种生成模型，包括两个过程：扩散过程和反向扩散过程。

在扩散过程中，输入图像会逐渐加入噪声，直至变成高斯噪声。这一过程是预定义的，并用作反向扩散过程的监督数据。而反向扩散过程则是从完整的噪声中逐渐去除噪声，直至恢复原始图像。

每一步都要学习反变换（预测添加的噪声）。这意味着在学习了反向扩散过程后，就可以从完整的噪声中生成图像。

此外，当与文本输入条件相结合时，还可以实现文本到图像的生成模型：稳定扩散模型（Stable Diffusion）[Rombach et.al, 2022]是潜空间中广为人知的大规模文本到图像扩散模型，它可被认为是一种模型。

给定文本条件 y（即文本提示），学习的损失函数为

其中，ϵ 和ϵ_θ 为添加噪声和预测噪声，τθ 为文本编码器。

稳定扩散的个性化

给定主体图像后，个性化的理念是将主体嵌入稳定扩散输出域，并合成主体在不同情境下的新表征。经过个性化处理后，就可以生成新的主体图像。

本文中的个性化方法是调整稳定扩散，在不过度拟合少量参考图像或丢失先前知识的情况下，将主体的新信息整合到输出域中。

该技术与 DreamBooth 类似，都是利用包含唯一标识符的参考图像（例如 [identifier] 中的花朵照片）和文本提示对图 2 中的噪声预测 U-Net 进行微调。为了保留先验知识，我们引入了特定类别的先验损失（PPL），如公式 2 所示。

x′ 是预训练稳定扩散生成的图像，带有文本提示（如[类]的照片），不包含[标识符]。由等式 1 和 2 中的损失函数合成的总体损失函数为其中，λ 是一个超参数。

虚假特征相似性损失

还提出了杂散特征相似性损失（SFSL），以促进杂散特征的生成。

如图 2 所示，训练有素的模型用于估算参考图像和生成图像中的虚假特征。本文所描述的就是一个经过训练的 Spurious ImageNet 模型。根据类别k、输入图像x 和Spurious ImageNet 最后一层的特征 j(x)，利用以下公式计算出特征。

杂散特征相似性损失（SFSL）是根据参考图像的杂散特征和生成图像的杂散特征的余弦相似性 S_C 计算得出的。

将方程 3 中的损失与 κ超参数合成，就能得到方程 6 所示的拟议方法的最终损失函数。

试验

数据集和分类器

实验中使用了Spurious ImageNet数据集。该数据集包含 100 个类别。

每个类别有 75 幅分辨率为 367 x 367 的虚假图像，共计 7,500 幅图像。如上所述，并非 Spurious ImageNet 中的所有图像在不同分类器中都是一致的虚假图像。

因此，我们为以下四个分类器的每个测试类别选择了六幅全部为假图像：ResNet-50（PyTorch 版本 1 和 2）[Heet.al, 2016]、鲁棒性 ResNet-50[Croce et.al, 2022]、ViT-B/16[Steiner等人，2022]。

杂散精度

从每个测试类别中抽取 75 幅图像，用四种分类器（ResNet-50 V1 和 V2、Robust ResNet-50 和 ViT-B/16）与虚假图像网络进行比较，以观察虚假类别的准确性。生成的 75 幅图像是随机抽取的。

表 1 总结了虚假准确率结果，其中 SI 表示 "虚假 ImageNet"。对于除 "旗杆 "以外的所有测试类别，不同分类器生成的图像具有更多的虚假特征。这表明，在评估现有 ImageNet 分类器的虚假性能时，所提出的方法与 Spurious ImageNet 是互补的。

建议的方法可用于创建更稳健的虚假测试数据集。

本文是利用大规模文本到图像扩散模型生成虚假图像的首次尝试。因此，无法与其他方法进行直接比较。

不过，由于该方法是建立在梦ooth 的基础上的，因此在此将与梦ooth 进行比较。表 2 比较了四种分类器中六个类别的平均虚假准确率。由于 DreamBooth 和文本编码器的联合训练，生成的图像具有更多的虚假特征。

添加拟议的虚假特征相似性损失（SFSL）进一步提高了虚假特征的准确性。据观察，超参数 κ 会因类别不同而产生不同的影响。因此，κ 值需要根据目标类别进行调整。

感知质量

最新的感知图像质量评估指标 TOPIQ [Chen et.al, 2023] 被用来客观测量生成的虚假图像的感知质量。

表 3 总结了客观评估结果，其中计算了每个类别的 6 幅图像（所有训练图像）和 75 幅图像（生成图像）的 TOPIQ 分数。在 "蜂鸟 "和 "考拉 "类别中，生成图像的得分接近真实图像。但是，其他类别的得分较低。

为了进一步评估虚假生成图像的质量，我们在下面的小节中进行了主观评估。

主观评价

十名用户（研究人员、学生和非技术人员）接受了主观评分。每类用户随机展示十张图片（包括真实图片和生成图片），并根据自然度要求用户给出 1 到 5 分的评分。

图 3 总结了主观评分结果。平均而言，46.33% 的用户给真实图像打了最高分 5 分（非常自然），20% 的用户给生成图像打了 5 分。由此可见，一些生成的图像是自然逼真的。

我们还对生成的全部六类图像进行了人工检查，在一些图像中发现了漫反射伪影。图 4 显示了所选生成图像与 Spurious ImageNet 图像的对比。不过，由于生成模型没有生成上限，因此可以通过不同的配置对许多图像进行采样，以获得令人满意的图像。

图 4：生成图像（第 2 行）和 Spurious ImageNet（第 1 行）的示例。红色标签为预测类别，黑色标签为真实主题

最后

本文表明，如果从 "虚假图像网络"（Spurious ImageNet）中获取一些虚假图像，就可以对稳定扩散进行微调，以利用新的虚假特征相似性损失。

建议的方法节省了过滤大量图像以查找虚假特征的时间。因此，在准备虚假特征测试数据集时，所提出的方法是对 Spurious ImageNet 的补充。实验证实，生成的图像在不同分类器中都是虚假的，并且在视觉上与 Spurious ImageNet 图像相似。

与本文相关的类别

JACK