赶上最新的AI论文

微调 TEXT-TO-IMAGE 扩散模型以生成虚假特征

微调 TEXT-TO-IMAGE 扩散模型以生成虚假特征

图片识别

三个要点
✔️ 虚假图像有助于衡量分类器的可靠性
✔️从互联网上过滤大量虚假图像以找到 更多虚假特征非常耗时
✔️ TEXT-TO-IMAGE 扩散模型微调建议生成虚假图像的方法

Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation
written by AprilPyone MaungMaungHuy H. NguyenHitoshi KiyaIsao Echizen
(Submitted on 13 Feb 2024)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

深度神经网络(DNN)在视觉识别、自然语言处理和语音识别方面取得了最先进的成果。然而,对 DNN 进行评估并非易事,尤其是在乳腺癌筛查和自动驾驶等更重要的领域。

通常,图像分类器的性能是在一个固定的测试集上进行评估的,而这个测试集可能与真实世界的操作不同。例如,ImageNet 测试集不能反映真实世界的性能。

为了更好地评估分类器,最近备受关注的一种方法使用虚假特征虚假图像杂散特征可以简单地理解为经常与图像的主要特征一起出现的特征

例如,牛群图像通常包含草原,蜂鸟图像通常包含红丹参花。在这里,牛和蜂鸟是主要特征,而草原和红丹参花则虚假特征具有虚假特征的图像视为虚假图像

如果一个类别只与虚假特征相关联,就会造成捷径学习。例如,如果一个模型使用红丹参花特征蜂鸟进行分类,那么一张只有红丹参花的照片可能很容易被模型分类为苍蝇,反之,一张没有红丹参花而只有蜂鸟的照片可能会分类为蜂鸟因此,评估具有虚假特征DNN对于安全关键型应用非常重要

最近的研究通过检测大型数据集(如 ImageNet)中的虚假特征,引入了 Spurious ImageNet。然而,研究发现,并非 Spurious ImageNet 中的所有图像都具有不同分类器的虚假特征(图 1)。此外,从互联网上过滤具有虚假特征的图像是一项耗时的任务。

图 1.虚假图像示例;Spurious ImageNet 数据集中的一些图像被检测为 "蜂鸟",但却被归类为 "threadfinch"。

本文介绍的论文提议利用 Stable Diffusion 的大规模 "文本到图像"(Text-to-Image)模型来生成具有不同分类器的虚假特征的图像其目的是对 "虚假图像网络"(Spurious ImageNet)进行补充。

技术

概述

图 2:整体微调概览。

给定特定类别的一些虚假图像,目的是在不同的分类器中为这一特定类别生成新的虚假图像。图 2 展示了文本到图像扩散模型的微调框架。

该框架基于 DreamBooth [Ruiz et.al, 2023],但与 DreamBooth 的主要区别在于增加了新的损失,并对文本编码器和噪声预测器进行了联合微调。新损失是根据杂散图像和非杂散图像之间的相似性计算得出的,有助于生成杂散特征。下文各小节将详细介绍。

稳定扩散和学习损失

扩散模型是一种生成模型,包括两个过程:扩散过程和反向扩散过程。

在扩散过程中,输入图像会逐渐加入噪声,直至变成高斯噪声。这一过程是预定义的,并用作反向扩散过程的监督数据。而反向扩散过程则是从完整的噪声中逐渐去除噪声,直至恢复原始图像。

每一步都要学习反变换(预测添加的噪声)。这意味着在学习了反向扩散过程后,就可以从完整的噪声中生成图像。

此外,当与文本输入条件相结合时,还可以实现文本到图像的生成模型:稳定扩散模型(Stable Diffusion)[Rombach et.al, 2022]是潜空间中广为人知的大规模文本到图像扩散模型,它可被认为是一种模型。

给定文本条件 y(即文本提示),学习的损失函数为

公式 1.从文字到图像的学习损失

其中,ϵ 和ϵ_θ添加噪声和预测噪声,τθ 为文本编码器。

稳定扩散的个性化

给定主体图像后,个性化的理念是将主体嵌入稳定扩散输出域,并合成主体在不同情境下的新表征。经过个性化处理后,就可以生成新的主体图像。

本文中的个性化方法是调整稳定扩散,在不过度拟合少量参考图像或丢失先前知识的情况下,将主体的新信息整合到输出域中。

该技术与 DreamBooth 类似,都是利用包含唯一标识符的参考图像(例如 [identifier] 中的花朵照片)和文本提示对图 2 中的噪声预测 U-Net 进行微调。为了保留先验知识,我们引入了特定类别的先验损失(PPL),如公式 2 所示。

等式 2. 保存前损失 (PPL)

x′ 是预训练稳定扩散生成的图像,带有文本提示(如[类]的照片),不包含[标识符]。由等式 1 和 2 中的损失函数合成的总体损失函数为其中,λ 是一个超参数。

方程 3.DreamBooth 损失函数

虚假特征相似性损失

还提出了杂散特征相似性损失(SFSL),以促进杂散特征的生成。

如图 2 所示,训练有素的模型用于估算参考图像和生成图像中的虚假特征。本文所描述的就是一个经过训练的 Spurious ImageNet 模型。根据类别k、输入图像x 和Spurious ImageNet 最后一层的特征 j(x),利用以下公式计算出特征。

等式 4.计算杂散特征的方法。

杂散特征相似性损失(SFSL)是根据参考图像的杂散特征和生成图像的杂散特征的余弦相似性 S_C 计算得出的。

等式 5:虚假特征相似性损失(SFSL)

将方程 3 中的损失与 κ超参数合成,就能得到方程 6 所示的拟议方法的最终损失函数。

等式 6.拟议方法的最终损失函数。

试验

数据集和分类器

实验中使用了Spurious ImageNet数据集该数据集包含 100 个类别。

每个类别有 75 幅分辨率为 367 x 367 的虚假图像,共计 7,500 幅图像。如上所述,并非 Spurious ImageNet 中的所有图像在不同分类器中都是一致的虚假图像。

因此,我们为以下四个分类器的每个测试类别选择了六幅全部为假图像:ResNet-50(PyTorch 版本 1 和 2)[Heet.al, 2016]、鲁棒性 ResNet-50[Croce et.al, 2022]、ViT-B/16[Steiner等人,2022]。

杂散精度

从每个测试类别中抽取 75 幅图像,用四种分类器(ResNet-50 V1 和 V2、Robust ResNet-50 和 ViT-B/16)与虚假图像网络进行比较,以观察虚假类别的准确性。生成的 75 幅图像是随机抽取的。

表 1 总结了虚假准确率结果,其中 SI 表示 "虚假 ImageNet"。对于除 "旗杆 "以外的所有测试类别,不同分类器生成的图像具有更多的虚假特征。这表明,在评估现有 ImageNet 分类器的虚假性能时,所提出的方法与 Spurious ImageNet 是互补的。

建议的方法可用于创建更稳健的虚假测试数据集

表 1:所生成图像的杂散准确率(%)和所提议方法的杂散图像网(SI)。

本文是利用大规模文本到图像扩散模型生成虚假图像的首次尝试。因此,无法与其他方法进行直接比较。

不过,由于该方法是建立在梦ooth 的基础上的,因此在此将与梦ooth 进行比较。表 2 比较了四种分类器中六个类别的平均虚假准确率。由于 DreamBooth 和文本编码器的联合训练,生成的图像具有更多的虚假特征。

添加拟议的虚假特征相似性损失(SFSL)进一步提高了虚假特征的准确性。据观察,超参数 κ 会因类别不同而产生不同的影响。因此,κ 值需要根据目标类别进行调整。

表 2.与 DreamBooth 的比较

感知质量

最新的感知图像质量评估指标 TOPIQ [Chen et.al, 2023] 被用来客观测量生成的虚假图像的感知质量。

表 3 总结了客观评估结果,其中计算了每个类别的 6 幅图像(所有训练图像)和 75 幅图像(生成图像)的 TOPIQ 分数。在 "蜂鸟 "和 "考拉 "类别中,生成图像的得分接近真实图像。但是,其他类别的得分较低。

为了进一步评估虚假生成图像的质量,我们在下面的小节中进行了主观评估。

表 3.n 图像的 TOPIQ 平均得分

主观评价

十名用户(研究人员、学生和非技术人员)接受了主观评分。每类用户随机展示十张图片(包括真实图片和生成图片),并根据自然度要求用户给出 1 到 5 分的评分。

图 3 总结了主观评分结果。平均而言,46.33% 的用户给真实图像打了最高分 5 分(非常自然),20% 的用户给生成图像打了 5 分。由此可见,一些生成的图像是自然逼真的。

图 3:真实图像和生成图像的主观评价

我们还对生成的全部六类图像进行了人工检查,在一些图像中发现了漫反射伪影。图 4 显示了所选生成图像与 Spurious ImageNet 图像的对比。不过,由于生成模型没有生成上限,因此可以通过不同的配置对许多图像进行采样,以获得令人满意的图像。

图 4:生成图像(第 2 行)和 Spurious ImageNet(第 1 行)的示例。红色标签为预测类别,黑色标签为真实主题

最后

本文表明,如果从 "虚假图像网络"(Spurious ImageNet)中获取一些虚假图像,就可以对稳定扩散进行微调,以利用新的虚假特征相似性损失。

建议的方法节省了过滤大量图像以查找虚假特征的时间。因此,在准备虚假特征测试数据集时,所提出的方法是对 Spurious ImageNet 的补充。实验证实,生成的图像在不同分类器中都是虚假的,并且在视觉上与 Spurious ImageNet 图像相似。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们