
根据产品类别和品牌风格生成电子商务背景图片
三个要点
✔️ 电子商务图像需要考虑产品类别和品牌风格,这大大增加了图像生成的时间和成本
✔️ 本文提出了首个背景生成数据集,旨在通过将类别共性和个性风格整合到扩散模型中来解决这一难题。
✔️ 实验结果表明,所提出的方法可生成高质量的跨类别背景,并保留了参考图像的个性化风格
Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style
written by Haohan Wang, Wei Feng, Yang Lu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Lixing Bo, Jingping Shao
(Submitted on 20 Dec 2023)
Comments: 12 pages, 11 figures
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
code:
本文中使用的图片来自论文、介绍性幻灯片或参考这些图片制作而成。
介绍
电子商务产品背景生成在图像生成研究中具有实用价值,旨在为特定产品创建自然逼真的背景,以提高点击率(CTR)等在线性能指标。传统上,广告商会聘请专业设计师为其产品创建合适的背景,但由于不同类别和品牌所需的背景差异很大,这一过程既耗时又造成经济负担。
为了降低成本,利用图像生成模型的传统方法通常会预先生成完整的图像,然后将其与产品和其他视觉元素相结合,制作成广告图像。然而,最终的图像往往缺乏真实感,因为背景的生成与产品的外观无关。
虽然基于文本的内绘方法最近已被用于生成产品背景,但为每种产品设计合适的提示对于大规模背景生成来说仍然耗时且效率低下。此外,某些品牌产品要求背景具有详细、一致和个性化的风格,而这很难仅使用文本进行有效描述,从而使生成过程更加复杂。
在这篇评论文章中,我们旨在通过将类别共性和个人风格整合到扩散模型中来解决这一问题。为了提高整体质量,我们还收集了一个专门针对电子商务产品的数据集。
广泛的实验证明,所提出的方法在背景相似性和质量方面都明显优于最先进的内绘方法。
建议方法
总体概述

如图 1 所示,拟议方法由三个部分组成
- 稳定扩散模型 ($SD$)
- 分类生成器 (CG$)
- 个性智慧生成器($PG$)
$CG$和$PG$建立在ControlNet架构的基础上,并对其进行了修改。 在训练过程中,给定一张广告图片 $I$ 和一个产品掩码 $M$,$CG$ 以 $I ⊗ M$ 为输入,整合一般类别知识,而 $PG$ 则从 $I ⊗ (1 - M)$ 中捕捉个性化风格。
利用类别的共性生成 (CG$)
虽然电子商务平台经营的产品种类繁多,但同一类别的产品却有很多共同点。因此,对同一类别中的产品使用相同的提示语是一个很自然的想法。例如,可以在提示模板"[类别]中的图片 "中注入类别名称。但是,简单地将类别知识存储在类别名称中并继承 ControlNet 的原始架构并不是最佳选择。类别名称应用于生成背景,但在训练过程中生成前景时,前景知识也不可避免地被编码。
要解决这个问题,可以采取以下两个步骤
- 输入提示:"[类别]中的照片,背景为[D]",其中[D]为特定标识符。
- 掩码引导交叉注意层:由下式表示其中,$M$、$P_{fg}$ 和 $P_{bg}$ 分别表示产品掩码、编码产品提示("[类别] 中的照片")和背景提示("[D] 背景中的照片")。
这种方法迫使子网络只根据背景提示生成背景。更多信息,请参见图 1 的左半部分。
使用个性化样式生成 ($CP$)
虽然特定类别的背景适合大多数产品,但知名品牌需要一致的签名风格背景。为了解决这个问题,本文提出了一种生成个性化背景(PGs)的方法,这种背景可以模仿参考图片的布局和元素。
建议的方法采用与 ControlNet 类似的架构,并通过维护高分辨率特征图来保留语义和空间信息。更多信息,请参见图 1 的右半部分。
为确保个性化风格只影响生成的背景,建议的方法通过以下公式屏蔽第 i 层交叉注意层的输出 $y_i$
由于缺乏足够的参考图像和相应生成图像的训练对,个性化背景生成器(PGs)是以自我监督的方式进行训练的。这包括对广告图像进行采样,提取其产品的背景,并用它们来重建原始图像。
这里的问题是,原始背景作为地面实况,可能会导致 PG 直接将产品粘贴到背景上的捷径。为了解决这个问题,我们使用扩展、随机掩码和平移对掩码 M 进行了数据扩展。更多信息,请参见图 1 的右半部分。
对于图像 $I$:扰动如下,其中 $I_{rand}$ 是另一张随机取样的广告图像。
新的输入数据将如下所示
BG60k:用于生成电子商务产品背景的数据集
通常用于训练传统图像生成模型的 LAION 数据集并非专为电子商务场景设计,许多训练图像不符合广告图像的要求。图 2 显示了一些例子。

本文通过收集用于生成电子商务产品背景的 BG60k 数据集来解决这一问题。BG60k 数据集收集自一个知名的电子商务平台,包含来自 2032 个类别的 63293 张广告图片。每张图片都与相应的类别相关联。
根据以下要求清理数据
- 要有吸引力。
- 不得包含文本。
- 不得包含任何人员。
为评估所提出的方法,还创建了两个测试集。
- BG1K:来自 200 多个类别的 1,000 个产品艺术经销商及其原始背景
- BG-pair:1,600 对商品艺术品和参考图片,以评估其生成个人风格的能力。
试验
CG$ 与以往研究的比较
在本实验中,通过与 LaMa、Stable Diffusion 和 ControlNet 等以前的 SOTA 研究进行比较,测试了所提方法的有效性。拟议方法(仅 $CG$)的输入提示为 "一张[类别]的照片,背景为[D]"。之前研究的输入提示是 "一张[类别]的照片"。结果见表 1,$CG$在 CLIP 相似度和 FID 分数上表现更好。

图 3 中的 tSNE 可视化效果还显示,与 ControlNet 相比,CG 生成的背景特征更紧凑地聚集在相应的中心周围,而 ControlNet 生成的特征更分散,离群值也更大。在实际比较中,例如在 "冰箱 "类别中,CG 生成的室内背景更一致、更逼真,而 ControlNet 生成的背景可能不那么相关或不真实。

个性化背景生成
表 2 显示了拟议方法与之前研究的比较结果。拟议方法的 CLIP 相似度为 4.75,FID 为 1.23,明显优于其他方法。较高的 CLIP 相似度表明拟议方法成功地模仿了参考图像的背景特征,而较低的 FID 则表明拟议方法能够生成与广告图像分布一致的新背景。
此外,还评估了一种简单的情况,即参考图像中的产品与需要背景的产品相同。在这种情况下,生成的背景中的所有元素在空间上都与参考图像中的元素相同,从而减少了模型深入理解参考图像的需要。如表 2 所示,"自"→"自",在这种情况下,所提出的方法在 CLIP 相似度和 FID 方面也取得了最佳性能。这些结果表明,通过选择形状相似的商品参考图像,可以进一步提高生成背景的质量。

图 4 显示了部分生成的示例。可以看出,建议的方法能够生成与参考图像相似的背景,包括风格、布局和元素。

摘要
这篇评论文章重点讨论了电子商务产品背景生成中的几个实际挑战。首先,使用按类别生成器来提高大规模生成的效率,并使用掩码引导的交叉关注层将每个类别的共同风格映射为唯一标识符。
此外,它还能从参考图像中有效保持特定品牌的个性风格。我们提出了一种按个性生成的方法,以及一种防止复制粘贴的背景数据扩展方法。最后,我们提出了首个大规模产品背景生成数据集 BG60k。
实验结果表明,所提出的方法能为不同类别的产品生成高质量的背景,而且在给定参考图像的情况下,还能生成与个别风格相似的背景。
与本文相关的类别