![Versatile Diffusion] 融合文本和图像的扩散模型](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/December2023/versatile_diffusion.png)
Versatile Diffusion] 融合文本和图像的扩散模型
三个要点
✔️ 整合文本和图像的多模态扩散模型
✔️ 利用 CLIP 获取文本和图像上下文信息
✔️ 通过全局图层在整个模型中共享信息
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model
written by Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi
(Submitted on 15 Nov 2022 (v1), last revised 23 Mar 2023 (this version, v3))
Comments: Github link: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
本研究提出了一种用于图像和文本的多模态扩散模型--多功能扩散模型(VD)。利用该模型可以完成以下任务。
- 文本到图片
- 图像到文本
- 图像对图像
- 文本到文本
简而言之,可以实现图像和文本的 "任意对任意"。还可以通过输入提示来编辑图像,例如 "将这幅画变成油画"。
本研究中的 "多功能扩散 "可以在下面的 "拥抱脸部 "演示页面上轻松执行。它可以在本文描述的所有任务中执行,因此我们鼓励感兴趣的人尝试一下。
https://huggingface.co/spaces/shi-labs/Versatile-Diffusion
让我们快速浏览一下模型内部。请注意,从现在起,Versatile Diffusion 将被称为 "VD"。
多用途模型结构
VD 的核心技术是 "多流多模态扩散模型",它可以根据图像和文本的上下文生成各种形式的数据。
这里的 "单流 "指的是使用 "单模态 m "的语境生成 "单模态 n "的数据;"文本到图像 "是最近的热门话题,如稳定扩散和 Imagen,在 VD 中也有相同的单流定义它是
就 VD 而言,它可以被描述为多流程,因为它可以执行各种生成任务,而不仅仅是文本到图像。
如下文 "VD 一个步骤的反向扩散过程示意图 "所示,VD 模型由三层组成:全局层、数据层和上下文层。
下表概括了各层和 "稳定扩散模型中的相应层 "的行为。
层次 | 行为 | 稳定扩散就是一个例子。 |
---|---|---|
全球层 |
不受流量影响,持续启动 ... 不同流量之间共享参数。 整合时间信息 |
时间嵌入层 |
数据层 | 当网络产生 "相应输出模式 "时激活。 | 残块(按时间调节)。 |
背景层 | 输入 "相应语境模式 "时激活。 | 交叉注意层(文字调节)。 |
以 "文本到图像 "为例,xt被发送到图像的数据层和文本的上下文层,从而在下一步得到 xt-1。同样,对于图像到图像,xt被发送到图像的数据层和图像的上下文层。
整个 VD 网络的组织结构如下图所示。
如图右下角所示,有四种类型的 VD 生成流。
- 文本到图片
- 图像到文本
- 图像变化
- 文本变化
总之,数据层和上下文层的反复使用表明,其结构遵循了传统扩散模型中的 U-Net 结构。
CLIP 与以往模式的不同之处在于,它不仅引入了文本编码器,还引入了图像编码器。这是因为不仅考虑了文本调节,还考虑了图像调节。
此外,由于各层共享 "时间信息 "和 "全网参数",全局层可在单一模型中实现多模式生成。
来源:https://github.com/shi-labs/versatile-diffusion
在 VD 中,图像通过 VAE 转换为潜在表征,文本通过 Optimus Bert 转换为潜在表征。
顺便提一下,在推理时,完整的噪声图像和文本数据被输入到 VD 网络。然后,图像和文本提示将通过 CLIP 的相应编码器用于生成调节条件。
评估测试
下表比较了 VD 和稳定扩散生成的数据。
定性结果表明,产生 VD 的能力很强。此外,定量评估结果表明:
FID 分数显示,在文本到图像和图像变化任务中,VD 的表现优于其他基线。
我们还进行了一项实验,要求受试者对每个模型生成的图像中他们认为质量最好的图像进行投票。结果如下。
蓝色代表 "稳定扩散生成的图像质量更好 "的票数,青色代表 VD 的票数,灰色代表 "质量差不多 "的票数。
结果表明,在 "文本到图像 "中,"质量差不多 "等意见很明显,但在 "图像变化 "中,VD 的评分更高。
摘要
VD 可以处理多种任务,如文本到图像、图像到文本和图像变化生成。其他建议的应用还包括图像和文本之间的语义和风格分离,以及双语境和多语境混合。
此外,还讨论了未来涵盖更多模式的可能性,如 3D 生成、语音和音乐。
这可以通过为其他模式准备编码器并以与本研究相同的方式建立模型来实现。当然,需要针对每种模式进行详细的设计和编码。
与本文相关的类别