![[UniD3] 用于综合处理图像和文本的多模式离散扩散模型](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/December2023/unified_discrete_diffusion.png)
[UniD3] 用于综合处理图像和文本的多模式离散扩散模型
三个要点
✔️ Any-to-Any 的多模态扩散模型
✔️ 将图像和文本视为一个离散的标记(一体化)
✔️ 引入带有相互关注的变换器进行去噪
Unified Discrete Diffusion for Simultaneous Vision-Language Generation
written by Minghui Hu, Chuanxia Zheng, Heliang Zheng, Tat-Jen Cham, Chaoyue Wang, Zuopeng Yang, Dacheng Tao, Ponnuthurai N. Suganthan
(Submitted on 27 Nov 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
各种跨模态模型,如从文本生成图像、从草图生成图像和从图像生成视频等,都得到了迅速发展。然而,它们执行的生成任务都局限于特定的模式,如 "仅文本到图像"。
本研究提出了一种使用图像语言模型 UniD3 的多模态生成方法,它整合了不同的模态。这种方法允许 "任意到任意",即任何模态输入都可以输出任何模态。
如上图所示,UniD3 不仅可以实现 "文本到图像",还可以实现 "图像到文本 "和 "无条件图像-文本生成"。
技术
让我们快速了解一下如何实现图像-文本任意转换:UniD3 的整体流程如下。
具体来说,首先使用各自的编码器 "dVAE "和 "BPE "将图像和文本压缩成离散的标记序列。
然后使用融合嵌入将两个标记连接起来,并在同一空间计算出一个嵌入 "融合嵌入"。这样,图像嵌入和文本嵌入就可以作为单一标记进行综合处理。
然后,对于前面描述的融合嵌入,在扩散过程中通过马尔科夫转换矩阵进行扩散,在反向扩散过程中通过 "带相互关注的统一变换器 "进行去噪。
这样重建的融合嵌入可以再次分为图像嵌入和文本嵌入,从而获得两种模式的独立标记。
介绍相互关注
本研究在统一变换器中引入了一种新的注意力机制,称为 "相互注意力",用于去噪。
统一变压器由多个变压器模块组成,每个模块包含一个自关注点、两个交叉关注点和一个前馈层。
在这种情况下,通常的 "自我关注 "机制能有效捕捉一种模式中元素之间的关系,但在捕捉不同模式之间的关系方面却很差。
因此,本研究引入了相互关注机制来捕捉模态之间的关联,即使图像和文本标记结合在一起也是如此。
相互关注模块示意图如下。
该模块首先将 "带噪声的融合隐藏状态 "作为输入,该状态由不同的图像和文本标记组合而成。
然后应用 "自我注意",每个区块捕捉其在同一序列中的相关性。然后,它再次被分解成不同模态的标记,并通过两次交叉注意。通过这种方式,可以捕捉到不同模态之间的相关性。
然后,两个标记再次合并,并通过前馈层传递到下一个变换器模块。通过重复这一过程,去噪工作继续进行,最终得到 "无噪声融合隐藏状态"。
顺便提一下,噪声词块中的[MASK]词块表明,掩码估计具有去噪功能。
实验结果
为了研究 UniD3 的性能,我们进行了以下实验
- 无条件生成
- 条件式创建
实验中使用了 CUB-200(包含鸟类物种图像和文字的数据集)和 MSCOCO(包含各种图像和标题的数据集)。
无条件生成的结果
无条件生成的结果如下。
图像和文本同时生成。生成的图像和文本质量良好,说明文本与图像一致。
条件生成结果
以下指标用于客观评估有条件的发电量
- FID:图像的真实性和多样性
- IS:图像的现实性和多样性
- BLEU-4:文字说明的准确性。
- METEOR:文字说明的准确性。
- SPICE 分数:文字说明的准确性。
- CLIP 评分:图像-文本一致性。
根据客观指标,与其他模型的比较结果如下。
应用
UniD3 还可用于内绘和捕捉图像。结果示例如下。
捕捉实例。
Ref. Captions 是原始数据集的文本;Samples 是 UniD3 的 Image-to-Text 生成的标题。
内画的例子
左侧图像中的赭色区域和文本中的删除线指的是 MASK。在这些 MASK 区域进行内绘可完善数据。右侧显示了四种内绘结果。
摘要
这项研究是利用多模态扩散模型实现 "任意对任意 "的开创性实例。其他模式的输入和生成,如语音和音乐,也可以通过这种研究来实现。
请关注 "任意对任意 "模式未来的发展。
与本文相关的类别