[CoMat] 解决文本与图像之间的差异

计算机视觉 28/08/2024

三个要点
✔️ 当前文本图像生成模型的根本问题似乎是缺乏对文本标记的注意激活。
✔️ 所提出的方法 CoMat 使用 ImageCaptioning 模型来评估文本图像的一致性，并改进了 Diffusion 模型，从而显著提高了一致性。
✔️ 实验结果表明，CoMat 无需额外数据即可进行端到端训练，并在定量和定性评估中显示出显著的性能改进。未来有望通过使用多模态 LLM 等方法进一步提高性能。

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
written by Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li
(Submitted on 4 Apr 2024)
Comments:Project Page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

在文本到图像生成领域，扩散模型近年来取得了巨大成功。然而，提高生成图像与文本提示之间的一致性仍然是一个挑战。

论文指出，扩散模型中文本条件利用不足是对齐的根本原因。论文随后提出了一种新方法 CoMat，通过利用图像捕捉模型来优化生成图像与文本提示之间的对齐。它还引入了一种改进属性和实体之间绑定的方法，以及一个保真模块，以保持生成能力。

实验结果表明，与现有的基线模型相比，所提出的 CoMat 方法能生成与文本条件更加对齐的图像。本文提出了改进文本到图像配准的新见解和有效方法，是对该领域的重要贡献。

建议的方法（CoMat）。

CoMat 是一种扩散模型微调方法，利用图像-文本概念匹配机制。

具体流程如下（见上图）。

1. 利用扩散模型根据文本提示生成图像。

2. 将生成的图像输入预先训练好的图像捕捉模型。

3. 在概念匹配模块中，字幕模型输出的文本与原始提示之间的一致性得分是扩散模型的优化目标。

这意味着，如果生成的图像中缺少一个提示概念，字幕模型的输出就会降低，扩散模型就会被诱导生成包含该概念的图像。

4. 属性集中模块还考虑实体及其属性的空间排列。

5. 保真度保持模块引入对抗性损失，并保持原有的生成能力。

这三个模块的组合是 CoMat 的一大特色，可确保生成与文本条件一致的高质量图像。

试验

主要实验设置如下
- 在基础模型方面，我们主要使用了 SDXL [36] - 在图像捕捉模型方面，我们使用了 BLIP [25] - 在训练数据方面，我们使用了 T2I-CompBench [21]、HRS-Bench [3] 和 ABC-6K [15] 中总共约 20 000 条文本提示。首先，表 1 列出了使用 T2I-CompBench 的定量评估结果。
- CoMat-SDXL 在属性绑定、对象关系和复杂组合方面都明显优于基线。
- 属性绑定方面的改进尤为明显，显著提高了 0.1895 个百分点。

表 2 列出了 TIFA 基准评估结果。
- CoMat-SDXL 也获得了最高的 TIFA 评估分数，提高了 1.8 分。

此外，图 6 直观展示了实验结果，证明了保真模块的重要性。
- 可以看出，如果没有该模块，生成的图像质量会明显下降。

这些结果证实，所提出的 CoMat 方法可以显著提高文本和图像的对齐度，同时还能保持其生成能力。

结论

论文指出，扩散模型中文本条件利用不足是造成文本与生成图像之间对齐问题的根本原因。随后，论文提出了利用图像捕捉模型的 CoMat 方法，并引入了改进属性与实体之间的绑定和保持生成能力的机制。实验结果表明，与基线模型相比，CoMat 生成的图像能更好地与文本条件对齐。这项研究为文本-图像对齐问题提供了新的见解，并提出了有效的解决方案。

所提出的 CoMat 方法具有端到端微调方法的优势，可与其他方法结合使用。未来，CoMat 的性能可能会通过利用大规模多模态 LLM 得到进一步提高。它还有望开发出更广泛的应用，包括应用于三维领域。文本和图像的对齐是一个重要的问题，希望本文的结果将有助于扩大扩散模型的应用范围。