
文本-2-图像 利用扩散模型生成物体背景
三个要点
✔️ 背景生成在创意设计和电子商务等领域发挥着重要作用,包括改善用户体验和提高广告效率。
✔️ 当前的文本引导内画模型在用于背景生成时,往往会扩展主对象的边界并改变其特征,这一问题被称为 "对象扩展"。
✔️ 本文提出了一种模型,利用稳定扩散和控制网架构将内绘扩散模型调整到背景生成中,并表明在不影响多个数据集的标准视觉指标的情况下,对象扩展平均减少了 3.6 倍。
Salient Object-Aware Background Generation using Text-Guided Diffusion Models
written by Amir Erfan Eshratifar, Joao V. B. Soares, Kapil Thadani, Shaunak Mishra, Mikhail Kuznetsov, Yueh-Ning Ku, Paloma de Juan
(Submitted on 15 Apr 2024)
Comments: Accepted for publication at CVPR 2024's Generative Models for Computer Vision workshop
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
在创意设计和电子商务等领域,为对象创建背景场景至关重要。这有助于突出对象,并通过将其置于自定义环境中来提供背景。这一过程被称为 "文本条件外绘",涉及将图像内容扩展到空白背景之外。
流行的文本引导内画模型可以通过反转遮罩应用于外画,但这些模型的设计目的是填补缺失部分,而不是将物体融入场景。因此,这些模型往往会扩展物体的边界,改变物体的特征。这个问题被称为 "物体扩展",图 1 就是一个例子。
本文介绍了一种新的模型,它使用稳定扩散和控制网架构来调整主要对象的外绘扩散模型。
它还提供了不同模型和数据集的定性和定量结果,并包含一个新的指标,用于测量无需人工标注的物体扩张情况。 与稳定扩散 2.0 Inpainting 相比,这种方法将物体扩张率平均降低了 3.6 倍,同时不影响标准视觉质量指标。在不影响标准视觉质量指标的情况下,物体扩张平均减少了 3.6 倍。

建议方法
用于背景生成的 ControlNet
在本评论文章中,我们使用 Stable Inpainting 2.0(SI2)作为基础模型,并在此基础上添加 ControlNet 模型,使其适用于主要的物体外绘任务。整个模型的概览如图 2 所示。
如图 2 所示,SI2 中除 ControlNet 之外的所有权重都是固定的,并使用训练有素的模型。模型的输入如下。
- 掩码:矩阵,有物体的像素为 1,无物体的像素为 0。
- 屏蔽图像:所有非对象部分的值都为 0 的图像。
- 提示:首选背景描述
- 时间: 扩散过程的当前时间步长

为了降低计算成本,SI2 在扩散过程之前使用编码器将图像转换为 64 × 64 × 4 的潜空间,而不是像素空间。因此,ControlNet 架构需要将条件图像转换为 64 × 64 × 4 的潜空间。具体来说,由四个卷积层组成的小型神经网络将图像编码为特征图。该网络使用以下设置:
- 内核尺寸:4 x 4
- 跨步:2 x 2
- 激活功能:ReLU
- 通道尺寸:16、32、64、128(每个通道对应 4 个卷积层)
- 权重初始化:高斯权重
该网络与 ControlNet 模型共同训练,然后传递给ControlNetU-Net 模型。
ControlNet 使用多个零卷积层来逐步修改 U-Net 解码器的输出,如图 2 所示。在数学上,一个特征图 $x∈ R^{h×w×c}$ 的高度、宽度和通道数分别为 ${h, w, c}$,一个 U-Net 编码器块的参数集为 $Θe$ $E(。; Θ_e)$ 和 U-Net 解码块 $D(.Θ_d)$ 给出。零卷积操作由 $Z(. ; Θ_z)$ 给出。Θ_z)$ 给出。拟议方法使用的 ControlNet 结构定义如下。
其中,( y ) 表示解码层经 ControlNet 结构调制后的输出。由于零卷积层的参数在第一个梯度下降步骤中被初始化为零,即 ( Z(x; \Theta_z) = 0 ),解码层的原始输出保持不变。因此,U-Net 模型的可训练副本和冻结副本的所有输入和输出都保持不变,就好像 ControlNet 不存在一样。此外,如果在梯度下降步骤之前将 ControlNet 结构应用于某些层,中间特征也不会受到影响。
学习的损失函数与正常扩散模型类似,如下所示。
对象扩展的评估指标

图 3:对象扩展的计算流程。
文本引导内画模型在外绘某些对象时面临的主要挑战是无法保持对象边界。需要采用定量误差测量方法来解决对象扩展问题。最初,人们使用对象分割(SOS)模型来在输入图像和外绘图像之间创建遮罩,而不是使用昂贵的人工标注。然而,这些模型在外绘图像上的表现很差,这可能是由于分布变化造成的。
尽管 SAM 并非 SOS 模型,但它可以使用正负点提示对物体进行分割。
通过从 InSPyReNet SOS 模型创建的原始图像遮罩中选取点,SAM 可以分割出涂抹图像中的物体并生成遮罩。这一过程在输入图像上重复进行,从而可以直接比较遮罩。获取这些遮罩的详细流程如图 4 所示。
有了这一管道,物体扩展评估指标可按下式计算其中,AREA 是物体在图像中的面积百分比。
试验
参照系统和评估指标
为了测试所提方法的有效性,我们在 ImageNet-1k、ABO、COCO、DAVIS 和 Pascal 数据集上将其与混合扩散、GLIDE 和稳定涂色等代表性模型进行了比较。评估指标如下
- FID:通过测量生成图像与真实图像之间的分布距离来评估感知质量。
- 感知图像补丁相似度(LPIPS):通过计算同一对象图像的外绘图像对之间的平均 LPIPS 分数,评估生成背景的多样性。
- CLIP 分数:使用 CLIP-ViT-L/14 测量文本提示与生成的图像嵌入之间的余弦距离的一致性。
- 物体相似度:衡量背景生成后物体特征的保留程度。计算方法是使用 BLIP-2 将外绘图像与输入的纯对象图像嵌入之间的余弦距离。
- 物体延伸:如上所述,量化主要物体在像素空间中的延伸程度。
与以往研究结果的比较

表 1 中的结果突出表明,与最先进的 SI2 模型相比,所提出的方法平均减少了 3.6 倍的对象扩展;虽然在 LAION 数据集上训练的 SI2 在处理不真实图像时很吃力,但在真实图像数据集上训练的所提出的方法却取得了更好的 FID 和 LPIPS 分数。FID 和 LPIPS 分数。
GLIDE 在 LPIPS 中的排名略高,但在 FID 和 CLIP 分数上表现不佳,这说明对象的扩展性较差;SD2 的 CLIP 分数最高,因为它受对象的限制较少。
由于依赖于训练图像和 BLIP-2 合成字幕的分布,拟议方法略微降低了 SI2 CLIP 分数。不过,拟议方法的架构允许在推理过程中调整 ControlNet 的强度,为输出控制提供了灵活性。
此外,所提出的方法还获得了最高的物体相似度得分,这表明它能更好地保留物体的特征。与 SI2 相比,测得的对象扩展性提高了 3.6 倍,这要归功于拟议方法的架构和训练数据。
按类别分列的对象扩展
图 6 显示了 12 个 COCO 超级类别中对象的扩展情况。
按扩展分值排列的超级类别顺序在各基准模型中相似。每个模型的最高扩展分值都出现在室内环境中,这些环境中的突出物体具有大量精细细节,但没有明确的尺寸,例如食物、厨房和家具。
同样,在室外场景中,物体与背景反差较大,如运动和动物,扩展得分最低。

摘要
本文介绍了一种基于扩散模型的方法,用于在不改变对象边界的情况下生成背景。在设计和电子商务等应用中,保持对象特征至关重要。文章指出了对象扩展的问题,并提供了一种测量方法来捕捉这一问题。
对不太突出的物体进行背景生成仍然是未来的挑战,这可能需要高质量的实例或全景分割掩码。此外,将调制 U-Net 编码器的 T2I 适配器作为 ControlNet 的替代品,与用于对象感知背景生成任务的新控制架构相结合,也能提高生成图像的整体精度和质量。
与本文相关的类别