PosterLlama：语言模型设计能力和内容感知布局生成

布局生成 28/01/2025

三个要点
✔️ 广告、海报和网页用户界面设计中的视觉布局至关重要，而传统方法往往会遗漏语义细节 ✔️PosterLlama 利用 HTML 格式的大型语言模型的设计功能，生成视觉和文本一致的布局。它旨在生成布局
✔️ 实验结果表明，PosterLlama 的性能优于现有方法，是适用于各种条件的通用工具

PosterLlama: Bridging Design Ability of Langauge Model to Content-Aware Layout Generation
written by Jaejung Seol, Seojun Kim, Jaejun Yoo
(Submitted on 1 Apr 2024 (v1), last revised 28 Jul 2024 (this version, v3))
Comments: ECCV 2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

布局在平面设计中至关重要，它能有效地定位徽标和文本等元素，以吸引视觉注意力并传达信息。它对于网络用户界面、海报、文档排版、区域控制图像生成和布局引导视频生成等应用至关重要。版面生成模型可以减少手工操作，提高美学和功能效率，从而有可能节约成本。

在布局生成中，确保文本的可读性和视觉平衡非常重要：继 ContentGAN 之后，CGL-GAN、DS-GAN 和 RADM 等早期模型通过结合视觉和文本内容改进了布局生成。然而，这些方法往往将版式元素视为简单的数字，无法充分捕捉语义关系。

最近的一些模型，如 LayoutPrompter、Layout GPT 和 LayoutNUWA，可以使用语言模型生成高质量的布局，但在处理精细的视觉内容时却很吃力。在这篇介绍性论文中，我们提出了 PosterLlama。这是一个整合视觉和文本内容的模型，用于生成海报布局。它能将布局元素转换为 HTML 代码，并利用语言模型中的设计知识。通过两个阶段的训练过程，可以训练模型连接视觉编码器和 LLM，并生成 HTML 序列。

为了应对数据集的挑战，我们还提出了一种数据增强方法，重点关注海报中的突出对象。它还引入了一个使用场景文本生成模块生成广告海报的管道。

PosterLlama 在几乎所有指标上都达到了最先进的性能；通过利用 LLM 的设计知识，其质量几乎等同于实际布局；PosterLlama 是第一个可以处理所有类型的内容感知布局生成任务的模型，有望在许多情况下使用。海报设计

建议方法

输入/输出序列的格式

版面格式

内容感知版面生成的目标是根据给定的内容条件 $C$ 生成版面。在海报版式生成中，$C$ 被定义为多模式内容，如海报画布或文字说明。一个版面由 $N$ 元素 ${e_i}_{i=1}^N$ 表示，每个元素 $e_i = (t_i, s_i, c_i)$ 包含：。

边界框位置 $t_i = (x_i, y_i)$
大小 $s_i = (w_i, h_i)$
类别 $c_i$。

除内容条件外，布局元素的子集也可作为约束条件。

HTML 格式

为了利用 LLM 中包含的大量知识来生成布局，布局以 HTML 序列的形式表示。这种方法可以利用 LLM 训练数据中蕴含的先验设计知识（如网页用户界面设计），并提供比用数字表示布局属性更强大的表示能力。

在前一种方法的基础上，我们开发了一个模板，通过任务定义、HTML 格式和文本限制来构建模型的输入序列，从而生成文本识别布局：然后使用该模板生成文本识别布局。

任务定义：指定 {任务条件}所确定的输入序列的条件（例如，早期研究 Gen-IT 中的{"根据类别和图像"}）。
HTML 格式化：使用 <rect> 等HTML 标记封装布局元素，并利用网络用户界面布局所特有的各种标记。
掩码标记： <M> 引入掩码标记，以鼓励 LLM 预测掩码标记并促进有条件布局生成。

由于布局元素没有唯一的顺序，在数据有限或条件多样的情况下，在训练过程中固定掩码标记的顺序很容易导致过度学习。为了解决这个问题，我们在保持输入和输出元素同步的同时，在布局顺序中引入了随机替换。

此外，为了确保高效的训练并减少总体标记长度，与之前的工作一样，每个元素的属性都是离散的。这种方法使模型能够有效地训练和生成高质量的文本识别布局。

学习方法

整个训练过程如图 1 所示。在海报布局生成方面，采用了一种两阶段训练方法，其灵感来自于 Mini-GPT4 的高效视觉问题解答方法和教学协调。

第 1 阶段：适应性培训

适配器调整：使用线性层作为适配器，将图像编码器与 LLM 对齐。固定模型的其他部分，只训练适配器。
训练数据：使用大量已分类的图像-文本对。
图像特征编码：将来自编码器的图像特征封装在 <img> 标记中，并与文本标记和文本说明一起处理： "<img><ImageFeature></img> 详细描述该图像" 。img> 详细描述此图像"。
可视化编码器：采用最新的可视化嵌入模型 DINOv2。

第 2 阶段：布局生成微调

修复适配器：修复视觉适配器并微调 LLM。
HTML 格式的数据集：使用 HTML 格式的数据集生成版面（数据格式见上一节）。
防止灾难性遗忘：使用 LoRA（低级适应）优化微调过程，防止灾难性遗忘。
目标函数：交叉熵损失

这种两阶段方法利用了模型的视觉和语言能力，确保了有效的协调和微调，从而生成高质量的海报版面。

数据扩展

丰富多样的数据可以提高生成模型的性能，但海报数据集的数量有限，而且版权问题也导致难以收集大型数据集。

为此，我们提出了一种新的海报数据扩展方法，该方法采用基于深度的扩展和 top-k 相似性选择。图 2-a 是该方法的概览。该方法使用基于文本和深度图的生成模型 ControlNet-Depth。标题使用 Blip-2 生成，深度图则由可用网络估算。

尽管 ControlNet 的合成质量很高，但扩散生成的图像中可能会出现伪影，尤其是突出的物体，从而影响布局和图像画布之间的相关性。为缓解这一问题，DreamSIM 采用对布局和语义内容敏感的相似度测量方法，从 N 个生成样本（N = 10，k = 3）中选出前 k 个样本。

这一过程能以最小的改动生成高质量的合成数据，同时保留构图和突出的对象。图 2(b) 显示了一个扩展示例，说明了这种方法的有效性。

试验

定量评估

本节将比较 PosterLlama 模型与 DS-GAN、LayoutPrompter 和 RADM 的性能。这些都是先进的布局生成方法。评估中使用了八个不同的指标。

由于 PKU 数据集没有文本注释，因此只在 CGL 数据集上比较了 RADM 的性能。在 CGL 数据集中，PosterLlama 在五项指标上获得了最高分，在 FD、rea 和 occ 上获得了第二高分。在 PKU 数据集中，除 FD 外，它在所有指标上都获得了最高分。

定性评估。

本节将根据表 1 和图 3 中的详细信息，对 PosterLlama 和基线方法进行定性比较。

DS-GAN：元素是固定的，而且往往集中在左上角，经常重叠，对齐不良。这是由于非元素的布局被置于左上角（0, 0, 0, 0）。
布局提示器：对齐良好，但缺乏内容识别，导致大量重叠。
RADM：在所有样本中产生接近真实数据的结构。
PosterLlama：展示了在不过度拟合真实数据的情况下生成适当合理布局的能力。

总体而言，PosterLlama 生成的布局具有良好的对齐和内容感知能力，避免了错位、重叠和隐藏等常见问题，因此可以看出它优于基线方法。

摘要

本文介绍了一种用于视觉和文本内容感知布局生成的新方法 PosterLlama。在内容感知布局生成方面，采用了一种高效的视觉问题解答训练方法，将视觉感知引入 LLM，并以适合语言模型的代码格式处理布局。为了克服数据不足的问题，我们提出了一种深度引导的扩展方法，使用市场上可买到的生成模型，以减少涂色伪影，实现公平的评估。

广泛的实验表明，PosterLlama 的性能优于现有的方法，它通过处理文本格式的条件，实现了多样化的条件生成，并能稳健地抵御因内绘人工痕迹而导致的学习捷径。得益于这种鲁棒性和可扩展的方式，PosterLlama 在小型数据集上非常有效，并能适应现实世界的应用。

与本文相关的类别

JACK