赶上最新的AI论文

T2I-适配器:文本到图像转换技术的前沿

T2I-适配器:文本到图像转换技术的前沿

计算机视觉

三个要点
✔️ T2I适配器旨在通过利用有关生成的隐性知识来改进控制
✔️ 低成本适配器模型通过学习 T2I 模型的条件信息和一致性,而不是学习新特征,提供轻量级的有效控制。

✔️ 所提出的 T2I 适配器在生成质量和可控性方面都更胜一筹,有望在未来的研究中发展多模式控制方法。

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
written by Chong MouXintao WangLiangbin XieYanze WuJian ZhangZhongang QiYing ShanXiaohu Qie
(Submitted on 16 Feb 2023 (v1), last revised 20 Mar 2023 (this version, v2))
Comments: Tech Report. GitHub: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Multimedia (cs.MM)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本文重点讨论了用于大规模文本到图像转换的模型,强调了其卓越的生成能力,但也指出了让模型接受精确指令的困难。具体来说,本文提出了一种方法,利用模型隐式学习到的特征来更详细地控制生成过程。

所提出的方法引入了简单、轻量级的适配器,允许模型利用内部学习到的知识进行外部指令,同时保留较大的模型。这样就可以训练多个适配器来处理不同的情况,从而对生成图像的颜色、结构等进行详细控制。

最后,所提出的适配器非常易于使用,在各种情况下都能表现出极具吸引力的特性。大量实验表明,适配器能够生成出色的图像。简而言之,本文介绍了一种将适配器纳入文本到图像模型的方法,该模型可以提供更详细的说明。

上图与建议的 T2I 适配器有关。该适配器是一个简单的小规模模型,为原始 T2I 模型提供额外指导,对网络拓扑结构或生成能力影响不大。T2I 适配器。可利用各种引导,如颜色、深度、素描、语义分割、关键姿势等,从而实现本地编辑和可配置的引导

导言

本文介绍一种根据文本生成图像的模型(T2I 模型)。通过使用大量数据和计算能力对该模型进行训练,它现在能够根据指定的文本和提示生成高质量的图像。生成的图像包含纹理和边缘等详细信息,还能代表有意义的内容。

然而,生成的结果取决于具体的指令和提示,一般用户很难控制。当普通大众使用时,生成的结果是不可预测和难以控制的。建议的方法试图利用模型隐含的信息,并利用这些信息对生成过程进行更具体的控制。

为此,我们引入了一个小型适配器模型,试图通过协调模型中的知识和外部控制信号来改进生成的结果。拟议的适配器就像一个附加网络,不会影响原始模型或现有模型的拓扑结构,而且简单、小巧、灵活、易于使用。

利用这种方法,可以训练不同的适配器来应对不同的条件,从而提高对生成结果的控制。这使得普通用户也能轻松使用,并确保生成结果的可预测性和稳定性。据说,所提出的适配器能提供有效而灵活的控制能力,并在各种实验中显示出良好的效果。

上图是一个简单的 T2I 适配器,突出了以下特点:T2I 适配器不影响原有的网络拓扑结构和发电能力,易于部署,是一个拥有约 7700 万个参数和 3 亿个存储空间的小型模型,可以高效运行是。它具有灵活性,提供多个适配器以适应不同的控制条件,可以组合起来同时控制多个条件,实现多样化发电。此外,这些适配器可轻松集成到定制模型中,并具有通用特性,可用于各种情况。这表明,T2I 适配器简单而实用,具有灵活性和实用性

相关研究

本节将介绍几种生成图像的方法和模型。首先介绍的是一种名为生成对抗网络(GAN)的方法,它提到了如何从随机数据中生成出色的图像。这种方法被广泛应用于图像生成,本节还将介绍其他几种方法。

然后,它将重点放在条件图像生成上,介绍了将文本和其他图像作为条件纳入其中的方法。特别是,它侧重于使用文本生成图像(T2I 生成)的任务,并提到了在这方面备受关注的方法。书中介绍了一种称为扩散建模的方法,这种方法最近已成功用于图像生成。

不过,这也凸显了一个问题,即文本本身并不能为图像生成提供足够的信息。这就是 T2I 适配器作为一种新理念被引入的原因。适配器的定位是为大型模型提供结构指导的低成本方法。这对于微调模型来说是一种更有效的方法

T2I 适配器

这种方法旨在获得对文本生成图像的更多控制。为此,我们引入了最近备受关注的扩散模型。

这种扩散模型包括两个步骤。第一步,将图像转换到一个特殊的空间,并学习如何撤销转换。接下来,使用修改后的去噪器去除该空间中的噪音。这样就能生成干净的潜在特征和最终图像。

此外,还引入了基于文本的条件部分。这意味着,文本将为生成的图像提供指导。然而,有时仅靠文本很难提供足够的控制,因此提出了 T2I 适配器来解决这一问题。

T2I 适配器是一种简单轻便的功能,旨在支持多种条件。这样,用户就可以使用各种条件控制图像生成,包括草图、彩色信息和文本。

最后,还讨论了优化过程。这包括在训练过程中修改 SD 参数和优化 T2I 适配器,并使用原始图像、条件和文本作为训练样本。

整体架构由两个主要部分组成。第一部分是用固定参数预先训练的稳定扩散模型。第二部分包含几个 T2I 适配器,这些适配器经过训练,可以调整 T2I 模型的内部知识和外部控制信号。这些适配器通过直接添加可调权重 Ω 来构建。T2I 适配器的详细结构如右下角所示。

在复杂的场景中,SD 无法根据文本生成准确的结果。相比之下,我们的 T2I 适配器可以为 SD 提供结构指导,并生成有效的结果。

将 DDIM 推理采样平均分为三个阶段:早期阶段、中期阶段和晚期阶段。观察在这些阶段添加引导的结果。显然,迭代越晚,引导效果越小。

三级采样在训练过程中的效果说明了这一点。统一时间步长采样的指导性较弱,尤其是在色彩控制方面,但三级采样策略可以纠正这一弱点�

试验

在实验中,以 "批量大小为 8 "的方式进行了 10 次 "epochs"(学习迭代),即 8 幅图像一起进行训练。学习率为 "1×10^(-5)",并使用了名为 Adam 的优化算法。学习过程非常高效,使用四台英伟达™(NVIDIA®)Tesla GPU 在三天内即可完成。

在实验中,我们尝试使用不同的条件生成图像。例如,使用素描和语义分割等条件生成图像。这为生成的图像提供了具体指导,使结果更加可控。结果证实,与其他最先进的方法相比,作者的方法更清晰、更接近原始图像。

实验使用 FID(衡量生成图像与实际图像之间差异的指标)和 CLIP 分数(衡量生成图像与文本之间关联的指标)对生成图像的质量进行量化评估,结果证实作者的方法性能良好。

此外,研究还表明,该方法不仅可用于单个适配器,还可用于多个适配器的组合,这些适配器的组合可实现各种图像生成任务。该方法非常灵活,只需在训练好的模型上添加适配器,就能用于不同的模型和更新的版本。

最后,我们观察到,即使在小型 GPU 上,该方法也能提供较高的控制能力,这表明在降低模型复杂度的同时,还能实现有效控制。这促使我们开发出一种通用方法,可用于更广泛的应用领域。

作者的方法与其他方法(SPADE、OASIS、PITI、SD)之间的比较可视化。结果清楚地表明,作者的方法在对齐和生成质量方面都优于其他方法。

提供单一适配器控制的可视化效果。使用作者提出的 T2I 适配器,SD 模型可以根据彩色地图、草图、深度图、语义分割图、深度和关键姿势生成高质量的图像。

草图适配器的图像编辑功能可视化。同时,还显示了标清模型的修复结果,以供比较。

适配器的可组合控制可视化。具体来说,第一行显示的是深度+关键姿势,第二行显示的是草图+色彩图。

可视化 T2IAdapter 的通用功能。草图适配器已在 SD-V1.4 上进行过训练,并可在 SD-V1.5 和自定义模型(如 Anything-V4.0)上正确执行。

对 T2I 适配器的基本型、小型和微型版本的发电质量进行了比较。结果表明,所有这些适配器在生成质量和控制能力方面都很有吸引力

结论

这项研究旨在明确利用 T2I 适配器的隐式学习能力,更准确地控制生成。低成本适配器模型不是学习新能力,而是学习如何将预训练 T2I 模型的条件信息与其内部知识相匹配,从而实现有效控制。T2I 适配模型结构简单、重量轻,不会影响预训练 T2I 模型的生成能力,可广泛应用于空间色彩控制和精细结构控制,可轻松配置多个适配器,实现多条件控制。此外,T2I 适配程序一旦训练完成,就可以直接用于定制模型,只要它们是根据相同的 T2I 模型进行微调即可。

因此,所提出的 T2I 适配器实现了出色的控制和可喜的生成质量,大量实验证明了其有效性。然而,多适配器控制有其局限性,即制导功能的组合需要手动调整。未来的研究有望研究多模态制导信息的自适应融合,并朝着开发更高效、更灵活的控制方法的方向发展。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们