![[CoDi]可处理几乎所有模式的任意扩散模型](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/December2023/composable_diffusion.png)
[CoDi]可处理几乎所有模式的任意扩散模型
三个要点
✔️ 数据可由多种输入模态生成
✔️ Latent Alignment 允许使用模态共同特征空间作为条件
✔️ 只需一些组合数据集即可实现对其他模态的泛化
Any-to-Any Generation via Composable Diffusion
written by Zineng Tang, Ziyi Yang, Chenguang Zhu, Michael Zeng, Mohit Bansal
(Submitted on 19 May 2023)
Comments: Project Page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV);. Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)![]()
code :
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
本文介绍 CoDi(可组合扩散),这是一种任意对任意扩散模型,允许同时输入多种模式并生成各种数据。
前面我们说过 "可以同时输入多种模式,生成各种数据",具体来说,可以完成以下 11 项生成任务。
- 文字→图像
- 图片→文字
- 文字→音频
- 音频→文本
- 图像→音频
- 音频→图像
- 文字→视频
- 视频→文字
- 文本 + 图像 + 音频 → 图像
- 文本 → 图像 + 文本。
- 文本 → 视频 + 音频。
这意味着可以进行各种输入和输出。特别是,能够处理视频和音频并接受多个输入条件是本研究的一大亮点。具体生成任务的结果可参见以下项目页面。
在详细解释数据采集模型之前,我们首先讨论研究概述和背景。
研究概况与背景
传统的多模态模型可以从单一模态(如文本到图像或文本到音频)生成另一种单一模态,但很难同时处理多种模态。
CoDi 通过允许从任何模态组合生成任何模态组合来解决这一问题。具体来说,它建立在潜在扩散模型(LDM)的基础上,这些模型针对不同的模态进行了单独训练,然后进行组合。
此外,每种输入模式都会被投射到一个共享的特征空间中,而输出模型则根据这一组合特征进行生成。
这种方法允许 CoDi 无缝生成多种模式,例如从文本生成 "同步视频和音频"。
在上图中,相同颜色的线条代表相应的输入和输出。
我们将在下一节了解如何实现这种多模式生成。
科迪如何工作
首先,让我们来谈谈 Any-to-Any 处理任意模式时存在的挑战,然后看看 CoDi 的模式结构如何应对这些挑战。
任意对任意的挑战
从任何输入模式的组合中生成任意输出,都需要大量的计算和数据。例如,正如前面在 "11 个 CoDi 生成任务示例 "中介绍的那样,通常需要为多达 11 个任务的每个任务准备特定的扩散模型。
在这种情况下,必须对 11 个庞大的深度学习模型进行单独训练,这将是一项计算密集型工作。
此外,许多模式组合几乎没有一致的训练数据,对所有可能的输入输出组合进行训练也不现实。例如,有大量文本-图像配对数据,但很少有视频-音频配对数据。
当然,由于缺乏数据,学习这种模式组合的模型非常困难。
模型结构和学习方法
为应对上述挑战,CoDi 允许在单一扩散模型中以综合方式处理所有模式。
科迪学习和推理方法如下图所示。
具体来说,首先分别训练四种模态的潜在扩散模型(LDM)。这些模型可以独立并行地进行训练,从而确保单一模态的生成质量。
然后在上图中的第 1 阶段对其进行训练,使其能够接受各种条件输入。在这种情况下,需要使用一种名为 "桥接对齐 "的技术,将每种模式投射到一个共同的特征空间中。
桥接对齐
为了实现桥接对齐,首先要训练一个名为 "CLIP "的 "文本-图像 "对比学习模型。
然后,使用对比学习法在音频文本和视频文本配对数据集上训练 CLIP 权重,并冻结 CLIP 权重。
上述对比研究大多使用文本,因为文本数据量大,易于构建 "文本-数据 "配对数据。
这种方法可以将四种模式投射到一个共同的特征空间,并以综合方式进行处理。
多模态生成与潜在对齐
最后一个阶段 2 的目标是实现每种模式的扩散流之间的交叉关注,即同时生成两种或两种以上的模式。为实现这一目标,通过潜在对齐(Latent Alignment)生成的条件与前面所述的桥接对齐(Bridging Alignment)设计相同。
这种潜变量排列是一种将每个模态的潜变量投射到一个共同的潜空间的技术。
通过 Latent Alignment 生成条件的程序如下。
- 图像-文本扩散模型和相应环境编码器 V 中的交叉注意力,以文本-图像配对数据为基础进行训练。
- 冻结文本扩散模型中的权重,并在文本-语音配对数据上训练环境编码器和语音扩散模型中的交叉注意力。
- 冻结音频扩散模型及其环境编码器,利用音频视频配对数据学习视频的多模态生成。
在这里,CoDi 只针对三对数据(文本-语音、文本-图像和视频-语音)的多模态生成任务进行了训练。不过,训练中没有使用的模态组合,如 "图像-文本-声音 "多模态生成,也可以同时生成。
模态 A 和模态 B 多模态生成的目标函数
要同时生成两个或更多模态 A 和 B,可在联合国网中添加一个交叉注意力子层。然后,模态 B 的潜在变量将通过前面所述的潜在对齐(Latent Alignment)投射到一个共同的潜在空间,然后通过模态 A 的 U-Net 的交叉注意力层。
那么生成模式 A 的目标函数如下。
以上 $t$ 代表时间步长,$y$ 代表用于调节的数据。
因此,模态 A 的扩散模型的学习方式包含了模态 B 的信息。顺便提一下,在同时生成模态 A 和模态 B 的过程中,$L^{A}_{Cross}$ + $L^{B}_{Cross}$ 是目标函数。
环境编码器 V 也是通过对比学习获得的。
评估测试
下表列出了本研究使用的数据集。
使用的数据集包括图像 + 文本(有字幕的图像)、音频 + 文本(有字幕的音频)、音频 + 视频(有字幕的视频)和视频 + 文本(有字幕的视频)。
训练任务还包括单模态生成、多模态生成和对比学习,以调整提示编码器。
结果
使用 CoDi 生成单一模式的示例如下。
事实上,您可以看到,各种条件输入都可以接受。
此外,使用评价指标进行量化评估的结果如下。
在单模态生成方面,CoDi 在语音字幕和语音生成方面取得了最先进的成果。在图像字幕生成方面,它的性能与基于 Transformer 的最先进模型相当。
研究还引入了一个新指标 SIM,用于衡量生成模态之间的一致性和一致性。该指标可通过计算生成的模态嵌入之间的余弦相似度来量化模态之间的一致程度。
在音频到图像+文本、图像到音频+文本以及文本到视频+音频等设置下进行评估,与独立生成相比,它始终表现出更强的一致性。
多模式生成的其他例子包括
很明显,即使是多模态生成,也可以生成高质量的数据。
摘要
CoDi 可以处理并同时生成多种模式,包括文本、图像、视频和音频。它可以从不同输入模式的组合中产生高质量、一致的输出,这是使人机交互更加逼真的重要一步。
这种多模态模型可用于通用人工智能的研究。
与本文相关的类别