
PosterLlama:语言模型设计能力和内容感知布局生成
三个要点
✔️ 广告、海报和网页用户界面设计中的视觉布局至关重要,而传统方法往往会遗漏语义细节 ✔️PosterLlama 利用 HTML 格式的大型语言模型的设计功能,生成视觉和文本一致的布局 。它旨在生成布局
✔️ 实验结果表明,PosterLlama 的性能优于现有方法,是适用于各种条件的通用工具
PosterLlama: Bridging Design Ability of Langauge Model to Content-Aware Layout Generation
written by Jaejung Seol, Seojun Kim, Jaejun Yoo
(Submitted on 1 Apr 2024 (v1), last revised 28 Jul 2024 (this version, v3))
Comments: ECCV 2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
布局在平面设计中至关重要,它能有效地定位徽标和文本等元素,以吸引视觉注意力并传达信息。它对于网络用户界面、海报、文档排版、区域控制图像生成和布局引导视频生成等应用至关重要。版面生成模型可以减少手工操作,提高美学和功能效率,从而有可能节约成本。
在布局生成中,确保文本的可读性和视觉平衡非常重要:继 ContentGAN 之后,CGL-GAN、DS-GAN 和 RADM 等早期模型通过结合视觉和文本内容改进了布局生成。然而,这些方法往往将版式元素视为简单的数字,无法充分捕捉语义关系。
最近的一些模型,如 LayoutPrompter、Layout GPT 和 LayoutNUWA,可以使用语言模型生成高质量的布局,但在处理精细的视觉内容时却很吃力。在这篇介绍性论文中,我们提出了 PosterLlama。这是一个整合视觉和文本内容的模型,用于生成海报布局。它能将布局元素转换为 HTML 代码,并利用语言模型中的设计知识。通过两个阶段的训练过程,可以训练模型连接视觉编码器和 LLM,并生成 HTML 序列。
为了应对数据集的挑战,我们还提出了一种数据增强方法,重点关注海报中的突出对象。它还引入了一个使用场景文本生成模块生成广告海报的管道。
PosterLlama 在几乎所有指标上都达到了最先进的性能;通过利用 LLM 的设计知识,其质量几乎等同于实际布局;PosterLlama 是第一个可以处理所有类型的内容感知布局生成任务的模型,有望在许多情况下使用。海报设计
建议方法
输入/输出序列的格式
版面格式
内容感知版面生成的目标是根据给定的内容条件 $C$ 生成版面。在海报版式生成中,$C$ 被定义为多模式内容,如海报画布或文字说明。一个版面由 $N$ 元素 ${e_i}_{i=1}^N$ 表示,每个元素 $e_i = (t_i, s_i, c_i)$ 包含:。
- 边界框位置 $t_i = (x_i, y_i)$
- 大小 $s_i = (w_i, h_i)$
- 类别 $c_i$。
除内容条件外,布局元素的子集也可作为约束条件。
HTML 格式
为了利用 LLM 中包含的大量知识来生成布局,布局以 HTML 序列的形式表示。这种方法可以利用 LLM 训练数据中蕴含的先验设计知识(如网页用户界面设计),并提供比用数字表示布局属性更强大的表示能力。
在前一种方法的基础上,我们开发了一个模板,通过任务定义、HTML 格式和文本限制来构建模型的输入序列,从而生成文本识别布局:然后使用该模板生成文本识别布局。
- 任务定义:指定 {任务条件}所确定的输入序列的条件(例如,早期研究 Gen-IT 中的{"根据类别和图像"})。
- HTML 格式化:使用 <rect> 等HTML 标记封装布局元素,并利用网络用户界面布局所特有的各种标记。
- 掩码标记: <M> 引入掩码标记,以鼓励 LLM 预测掩码标记并促进有条件布局生成。
由于布局元素没有唯一的顺序,在数据有限或条件多样的情况下,在训练过程中固定掩码标记的顺序很容易导致过度学习。为了解决这个问题,我们在保持输入和输出元素同步的同时,在布局顺序中引入了随机替换。
此外,为了确保高效的训练并减少总体标记长度,与之前的工作一样,每个元素的属性都是离散的。这种方法使模型能够有效地训练和生成高质量的文本识别布局。
学习方法

整个训练过程如图 1 所示。在海报布局生成方面,采用了一种两阶段训练方法,其灵感来自于 Mini-GPT4 的高效视觉问题解答方法和教学协调。
第 1 阶段:适应性培训
- 适配器调整:使用线性层作为适配器,将图像编码器与 LLM 对齐。固定模型的其他部分,只训练适配器。
- 训练数据:使用大量已分类的图像-文本对。
- 图像特征编码:将来自编码器的图像特征封装在 <img> 标记中,并与文本标记和文本说明一起处理: "<img><ImageFeature></img> 详细描述该图像" 。img> 详细描述此图像"。
- 可视化编码器:采用最新的可视化嵌入模型 DINOv2。
第 2 阶段:布局生成微调
- 修复适配器:修复视觉适配器并微调 LLM。
- HTML 格式的数据集:使用 HTML 格式的数据集生成版面(数据格式见上一节)。
- 防止灾难性遗忘:使用 LoRA(低级适应)优化微调过程,防止灾难性遗忘。
- 目标函数:交叉熵损失
这种两阶段方法利用了模型的视觉和语言能力,确保了有效的协调和微调,从而生成高质量的海报版面。
数据扩展
丰富多样的数据可以提高生成模型的性能,但海报数据集的数量有限,而且版权问题也导致难以收集大型数据集。
为此,我们提出了一种新的海报数据扩展方法,该方法采用基于深度的扩展和 top-k 相似性选择。图 2-a 是该方法的概览。该方法使用基于文本和深度图的生成模型 ControlNet-Depth。标题使用 Blip-2 生成,深度图则由可用网络估算。
尽管 ControlNet 的合成质量很高,但扩散生成的图像中可能会出现伪影,尤其是突出的物体,从而影响布局和图像画布之间的相关性。为缓解这一问题,DreamSIM 采用对布局和语义内容敏感的相似度测量方法,从 N 个生成样本(N = 10,k = 3)中选出前 k 个样本。
这一过程能以最小的改动生成高质量的合成数据,同时保留构图和突出的对象。图 2(b) 显示了一个扩展示例,说明了这种方法的有效性。

试验
定量评估

本节将比较 PosterLlama 模型与 DS-GAN、LayoutPrompter 和 RADM 的性能。这些都是先进的布局生成方法。评估中使用了八个不同的指标。
由于 PKU 数据集没有文本注释,因此只在 CGL 数据集上比较了 RADM 的性能。在 CGL 数据集中,PosterLlama 在五项指标上获得了最高分,在 FD、rea 和 occ 上获得了第二高分。在 PKU 数据集中,除 FD 外,它在所有指标上都获得了最高分。
定性评估。

本节将根据表 1 和图 3 中的详细信息,对 PosterLlama 和基线方法进行定性比较。
- DS-GAN:元素是固定的,而且往往集中在左上角,经常重叠,对齐不良。这是由于非元素的布局被置于左上角(0, 0, 0, 0)。
- 布局提示器:对齐良好,但缺乏内容识别,导致大量重叠。
- RADM: 在所有样本中产生接近真实数据的结构。
- PosterLlama:展示了在不过度拟合真实数据的情况下生成适当合理布局的能力。
总体而言,PosterLlama 生成的布局具有良好的对齐和内容感知能力,避免了错位、重叠和隐藏等常见问题,因此可以看出它优于基线方法。
摘要
本文介绍了一种用于视觉和文本内容感知布局生成的新方法 PosterLlama。在内容感知布局生成方面,采用了一种高效的视觉问题解答训练方法,将视觉感知引入 LLM,并以适合语言模型的代码格式处理布局。为了克服数据不足的问题,我们提出了一种深度引导的扩展方法,使用市场上可买到的生成模型,以减少涂色伪影,实现公平的评估。
广泛的实验表明,PosterLlama 的性能优于现有的方法,它通过处理文本格式的条件,实现了多样化的条件生成,并能稳健地抵御因内绘人工痕迹而导致的学习捷径。得益于这种鲁棒性和可扩展的方式,PosterLlama 在小型数据集上非常有效,并能适应现实世界的应用。
与本文相关的类别