
T2I-适配器:文本到图像转换技术的前沿
三个要点
✔️ T2I适配器旨在通过利用有关生成的隐性知识来改进控制。
✔️ 低成本适配器模型通过学习 T2I 模型的条件信息和一致性,而不是学习新特征,提供轻量级的有效控制。
✔️ 所提出的 T2I 适配器在生成质量和可控性方面都更胜一筹,有望在未来的研究中发展多模式控制方法。
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
written by Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie
(Submitted on 16 Feb 2023 (v1), last revised 20 Mar 2023 (this version, v2))
Comments: Tech Report. GitHub: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Multimedia (cs.MM)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文重点讨论了用于大规模文本到图像转换的模型,强调了其卓越的生成能力,但也指出了让模型接受精确指令的困难。具体来说,本文提出了一种方法,利用模型隐式学习到的特征来更详细地控制生成过程。
所提出的方法引入了简单、轻量级的适配器,允许模型利用内部学习到的知识进行外部指令,同时保留较大的模型。这样就可以训练多个适配器来处理不同的情况,从而对生成图像的颜色、结构等进行详细控制。
最后,所提出的适配器非常易于使用,在各种情况下都能表现出极具吸引力的特性。大量实验表明,适配器能够生成出色的图像。简而言之,本文介绍了一种将适配器纳入文本到图像模型的方法,该模型可以提供更详细的说明。
上图与建议的 T2I 适配器有关。该适配器是一个简单的小规模模型,为原始 T2I 模型提供额外指导,对网络拓扑结构或生成能力影响不大。T2I 适配器。可利用各种引导,如颜色、深度、素描、语义分割、关键姿势等,从而实现本地编辑和可配置的引导
导言
本文介绍一种根据文本生成图像的模型(T2I 模型)。通过使用大量数据和计算能力对该模型进行训练,它现在能够根据指定的文本和提示生成高质量的图像。生成的图像包含纹理和边缘等详细信息,还能代表有意义的内容。
然而,生成的结果取决于具体的指令和提示,一般用户很难控制。当普通大众使用时,生成的结果是不可预测和难以控制的。建议的方法试图利用模型隐含的信息,并利用这些信息对生成过程进行更具体的控制。
为此,我们引入了一个小型适配器模型,试图通过协调模型中的知识和外部控制信号来改进生成的结果。拟议的适配器就像一个附加网络,不会影响原始模型或现有模型的拓扑结构,而且简单、小巧、灵活、易于使用。
利用这种方法,可以训练不同的适配器来应对不同的条件,从而提高对生成结果的控制。这使得普通用户也能轻松使用,并确保生成结果的可预测性和稳定性。据说,所提出的适配器能提供有效而灵活的控制能力,并在各种实验中显示出良好的效果。
上图是一个简单的 T2I 适配器,突出了以下特点:T2I 适配器不影响原有的网络拓扑结构和发电能力,易于部署,是一个拥有约 7700 万个参数和 3 亿个存储空间的小型模型,可以高效运行是。它具有灵活性,提供多个适配器以适应不同的控制条件,可以组合起来同时控制多个条件,实现多样化发电。此外,这些适配器可轻松集成到定制模型中,并具有通用特性,可用于各种情况。这表明,T2I 适配器简单而实用,具有灵活性和实用性
相关研究
本节将介绍几种生成图像的方法和模型。首先介绍的是一种名为生成对抗网络(GAN)的方法,它提到了如何从随机数据中生成出色的图像。这种方法被广泛应用于图像生成,本节还将介绍其他几种方法。
然后,它将重点放在条件图像生成上,介绍了将文本和其他图像作为条件纳入其中的方法。特别是,它侧重于使用文本生成图像(T2I 生成)的任务,并提到了在这方面备受关注的方法。书中介绍了一种称为扩散建模的方法,这种方法最近已成功用于图像生成。
不过,这也凸显了一个问题,即文本本身并不能为图像生成提供足够的信息。这就是 T2I 适配器作为一种新理念被引入的原因。适配器的定位是为大型模型提供结构指导的低成本方法。这对于微调模型来说是一种更有效的方法
T2I 适配器
这种方法旨在获得对文本生成图像的更多控制。为此,我们引入了最近备受关注的扩散模型。
这种扩散模型包括两个步骤。第一步,将图像转换到一个特殊的空间,并学习如何撤销转换。接下来,使用修改后的去噪器去除该空间中的噪音。这样就能生成干净的潜在特征和最终图像。
此外,还引入了基于文本的条件部分。这意味着,文本将为生成的图像提供指导。然而,有时仅靠文本很难提供足够的控制,因此提出了 T2I 适配器来解决这一问题。
T2I 适配器是一种简单轻便的功能,旨在支持多种条件。这样,用户就可以使用各种条件控制图像生成,包括草图、彩色信息和文本。
最后,还讨论了优化过程。这包括在训练过程中修改 SD 参数和优化 T2I 适配器,并使用原始图像、条件和文本作为训练样本。
整体架构由两个主要部分组成。第一部分是用固定参数预先训练的稳定扩散模型。第二部分包含几个 T2I 适配器,这些适配器经过训练,可以调整 T2I 模型的内部知识和外部控制信号。这些适配器通过直接添加可调权重 Ω 来构建。T2I 适配器的详细结构如右下角所示。
在复杂的场景中,SD 无法根据文本生成准确的结果。相比之下,我们的 T2I 适配器可以为 SD 提供结构指导,并生成有效的结果。
将 DDIM 推理采样平均分为三个阶段:早期阶段、中期阶段和晚期阶段。观察在这些阶段添加引导的结果。显然,迭代越晚,引导效果越小。
三级采样在训练过程中的效果说明了这一点。统一时间步长采样的指导性较弱,尤其是在色彩控制方面,但三级采样策略可以纠正这一弱点�
试验
在实验中,以 "批量大小为 8 "的方式进行了 10 次 "epochs"(学习迭代),即 8 幅图像一起进行训练。学习率为 "1×10^(-5)",并使用了名为 Adam 的优化算法。学习过程非常高效,使用四台英伟达™(NVIDIA®)Tesla GPU 在三天内即可完成。
在实验中,我们尝试使用不同的条件生成图像。例如,使用素描和语义分割等条件生成图像。这为生成的图像提供了具体指导,使结果更加可控。结果证实,与其他最先进的方法相比,作者的方法更清晰、更接近原始图像。
实验使用 FID(衡量生成图像与实际图像之间差异的指标)和 CLIP 分数(衡量生成图像与文本之间关联的指标)对生成图像的质量进行量化评估,结果证实作者的方法性能良好。
此外,研究还表明,该方法不仅可用于单个适配器,还可用于多个适配器的组合,这些适配器的组合可实现各种图像生成任务。该方法非常灵活,只需在训练好的模型上添加适配器,就能用于不同的模型和更新的版本。
最后,我们观察到,即使在小型 GPU 上,该方法也能提供较高的控制能力,这表明在降低模型复杂度的同时,还能实现有效控制。这促使我们开发出一种通用方法,可用于更广泛的应用领域。
作者的方法与其他方法(SPADE、OASIS、PITI、SD)之间的比较可视化。结果清楚地表明,作者的方法在对齐和生成质量方面都优于其他方法。
提供单一适配器控制的可视化效果。使用作者提出的 T2I 适配器,SD 模型可以根据彩色地图、草图、深度图、语义分割图、深度和关键姿势生成高质量的图像。
草图适配器的图像编辑功能可视化。同时,还显示了标清模型的修复结果,以供比较。
适配器的可组合控制可视化。具体来说,第一行显示的是深度+关键姿势,第二行显示的是草图+色彩图。
可视化 T2IAdapter 的通用功能。草图适配器已在 SD-V1.4 上进行过训练,并可在 SD-V1.5 和自定义模型(如 Anything-V4.0)上正确执行。
对 T2I 适配器的基本型、小型和微型版本的发电质量进行了比较。结果表明,所有这些适配器在生成质量和控制能力方面都很有吸引力
结论
这项研究旨在明确利用 T2I 适配器的隐式学习能力,更准确地控制生成。低成本适配器模型不是学习新能力,而是学习如何将预训练 T2I 模型的条件信息与其内部知识相匹配,从而实现有效控制。T2I 适配模型结构简单、重量轻,不会影响预训练 T2I 模型的生成能力,可广泛应用于空间色彩控制和精细结构控制,可轻松配置多个适配器,实现多条件控制。此外,T2I 适配程序一旦训练完成,就可以直接用于定制模型,只要它们是根据相同的 T2I 模型进行微调即可。
因此,所提出的 T2I 适配器实现了出色的控制和可喜的生成质量,大量实验证明了其有效性。然而,多适配器控制有其局限性,即制导功能的组合需要手动调整。未来的研究有望研究多模态制导信息的自适应融合,并朝着开发更高效、更灵活的控制方法的方向发展。
与本文相关的类别