
LAMIC:一种无需学习、布局可控的多参考图像生成方法
三个要点
✔️ LAMIC 将多个参考图像和布局控制相结合,无需学习即可生成图像
✔️ 群隔离注意和区域调制注意可防止干扰并实现精确的布局控制
✔️ 实验表明,与现有方法相比,LAMIC性能更佳实验表明,在 ID 保留、背景一致性和布局准确性方面,LAMIC 优于现有方法。
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
written by Yuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang
(Submitted on 1 Aug 2025)
Comments: 8 pages, 5 figures, 3 tables
Subjects: Computer Vision and Pattern Recognition (cs.CV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。
传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "和 "布局崩溃 "等问题。
此外,许多现有方法需要额外的训练和大型数据集,限制了其通用性和可扩展性。
LAMIC 基于多模态扩散变换器 (MMDiT),这是一种无需学习的零拍摄方法,可生成多个图像和文本,并结合区域规范(边界框和掩码)。
特别是,它引入了使用群体隔离注意力(GIA)的实体分离和使用区域调制注意力(RMA)的布局控制,以忠实再现空间布局,同时防止语义混淆。
在评估实验中,它在身份保持、背景一致性和布局准确性等指标上都优于现有方法,并在多参考和复杂组合中表现出卓越的性能。
由于采用了无需额外学习的高效框架,这项研究在电影制作和叙事生成等实际应用中显示出巨大的潜力。
建议的方法
LAMIC 的核心思想是构建一种标记表示法,将参考图像、文本描述和布局信息整合在一起,然后将其输入 MMDiT,从而实现多参考图像的一致合成。
首先,每个参照物都被定义为一个 VTS 三元组,由视觉(V)、文本(T)和空间(S)三个元素组成,并添加了实体之间的关系(跨实体交互,CEI)和非控制区域(U)。
然后,这些信息被转换成一个综合的标记序列,并在 MMDiT 中作为一致的表征进行处理。
在此过程中,将引入组隔离注意(GIA),以拦截每个 VTS 组之间不必要的相互干扰,防止不同实体的特征混杂在一起。
此外,还在生成的早期阶段应用区域调制注意力(RMA),以保持每个空间区域的独立性,并在后期阶段将它们整合在一起。
这样就能准确再现角色定位和背景一致性,并能处理复杂的布局。
重要的是,该方法不需要额外的训练或微调,可以直接扩展现有的单一参考模型,因此在实际操作中既高效又通用。
实验
为了评估所提出的 LAMIC 方法,作者在现有的 XVerseBench 数据集上扩展了各种参考图像(人物、动物、物体、衣服和场景)和相应的布局信息。
在实验设置中,使用了两张、三张和四张参考图像作为输入,并在多个指标上进行了性能比较,包括 ID 保留率 (ID-S)、背景相似度 (BG-S)、外观一致性 (IP-S) 和美学评价 (AES)。
此外,还使用了新提出的包含率(IN-R)和填充率(FI-R)来定量评估产品对布局指示的遵从程度。
结果表明,LAMIC 在所有情况下的平均得分(AVG)都优于现有方法,尤其是在 ID 保留和背景一致性方面。
即使在难度极高的三页和四页参考任务中,LAMIC 也比传统方法平均提高了 4 到 8 分。
此外,消融实验也证实了这两种机制的有效性,去除 GIA 和 RMA 后,性能显著下降。
此外,通过调整 RMA 的应用比例,观察到了布局精度和整体视觉平滑度之间的权衡,得出的结论是 0.05 的比例是最佳的。
总之,LAMIC 无需额外学习就能达到最先进的性能,并有可能成为多参考图像合成的新标准。
与本文相关的类别