潜在扩散模型不一定会 "扩大规模"

扩散模型 10/07/2024

三个要点
✔️ 在推理成本相同的情况下，较小的模型比较大的模型表现更好
✔️ 无论采样器类型、下游任务和蒸馏情况如何，都观察到类似的现象
✔️ 在推理过程中考虑采样成本与模型大小之间的权衡非常重要

Bigger is not Always Better: Scaling Properties of Latent Diffusion Models
written by Kangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar
(Submitted on 1 Apr 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

潜在扩散模型越大越好

论文指出，"对潜在扩散模型（LDM）的扩展特性进行了实证研究，尤其侧重于采样效率"。

研究要点包括

问题 1：缺乏对 LDM 的缩放特性和取样效率的研究。
挑战 2：LDM 训练需要巨大的计算资源，而且难以用各种模型大小进行训练。
问题 3：模型大小与抽样效率之间的关系不明确。
解决方法：用不同数量的参数训练 LDM，并研究模型大小与采样效率之间的关系。
要点：发现在推理成本较小的情况下，小型模型的性能往往优于大型模型

换句话说，作者指出，在扩大 LDM 规模时，不仅要增加模型规模，还要考虑推理过程中采样成本的权衡。

特别是，"在采样成本（计算成本）受限的情况下，较小的模型可能采样效率更高"。

潜在扩散模型中抽样效率的研究背景

潜在扩散模型（LDM）在图像和视频生成等各种任务中表现出卓越的性能。然而，它面临着采样效率低的实际挑战。

为了提高 LDM 的采样效率，目前主要提出了以下方法

开发更快的网络架构
改进采样算法，减少采样步骤数
通过蒸馏技术减少取样步骤。

然而，还没有研究 "从模型大小的角度研究采样效率"。其中一个原因是，从头开始建立一个高质量的图像生成模型非常耗时和昂贵。

这就是为什么当初 "创建各种尺寸的模型资源困难 "的原因。

本研究的核查细节

作者以 866M 参数的"稳定扩散v1.5 "为基准，训练了一个文本到图像的潜在扩散模型（LDM），其参数数量从 39M到5B不等。

以下是经过训练的稳定扩散模型列表（表 1），用于对不同规模的模型进行比较验证。

所有这些模型都是通过增加残差块中的滤波器数量来放大的，而其他结构元素保持不变。

下面显示了不同尺寸机型在缩放时的结构差异。

此外，每个模型都经过 500K 步训练，批量大小为 2048，学习率为 1e-4。此外，推理过程中的采样器设置为 DDIM、50 步和 7.5 的指导尺度。

每个模型生成的图像结果如下。

从上图可以看出，图像生成的性能与模型大小成正比。

在这些条件下，本文报告了以下六项实验结果，以评估放大模型的性能。

研究学习计算资源与 LDM 性能之间的关系。
使用预先训练的 LDM 调查下游任务的性能。
研究采样成本（步骤数）与 LDM 性能之间的关系。
调查采样器类型与效率（LDM 性能）之间的关系。
调查下游任务中取样成本与 LDM 性能之间的关系。
蒸馏型和未蒸馏型的性能比较

为测试文本到图像的稳定扩散，COCO 2014 验证集使用了 30k 个样本。

DIV2K 验证集也用于评估下游任务的性能。

学习计算资源与 LDM 性能之间的关系

用于训练的计算资源与模型性能之间的关系如下。

左边的 FID 是 "越小越好 "的值，右边的 CLIP 是 "越大越好 "的值。

结果表明，在小于 1G 的情况下，所有模型的性能都会随着计算资源的增加而提高。

不过，超过一定的尺寸，也会让人觉得头疼。

预先训练的 LDM 在下游任务中的表现

在这里，预训练的 LDM 被用于验证超分辨率和 DreamBooth（图像生成）等下游任务中的缩放特性。

具体来说，根据上述两项下游任务对每个 LDM 进行微调，然后比较每个下游任务的性能。

这里使用的预训练模型与上表 1 相同。

超分辨率任务的性能演变结果如下。

从上图左侧的 FID 可以看出，无论计算复杂度如何，性能的提高与模型大小成正比。换句话说，这里表示"预训练模型越大，超分辨率任务的性能越好"。

不过，从上图右侧的 LPIPS 可以看出，无论计算量大小如何，性能显然都与计算量成正比。

现在让我们看看下面的图像生成结果。

可以看出，增大模型尺寸也能改善结果。

最后，还应该看看使用 DreamBooth 生成图像的下游任务的结果。

可以看出，性能的提高与模型的大小成正比。

这些结果表明，使用预训练 LDM 的下游任务性能与预训练模型的性能（参数数量）成正比。

采样成本（步数）与 LDM 性能之间的关系

本节将探讨"增加采样成本（步数）是否会提高 LDM 性能，而与模型大小无关"。

为此，我们首先进行了实验，以确定每种不同模型大小和采样步数的最佳引导尺度。

例如，下图显示了当引导尺度从 1.5 等间隔过渡到 8.0 时图像生成性能的变化（上图是 145M 参数的 LDM，下图是 866M 参数的 LDM，均为 50 步）。

这将表明，最佳引导比例值因模型而异。

FID 分数还用于定量确定最佳指导尺度。下图显示了 "文本到图像 "中引导尺度与性能之间的关系。

左图（1.45 亿个参数的 LDM）和中图（5.58 亿个参数的 LDM）显示，随着采样步数的增加，最佳指导尺度也会发生变化。

然后就可以参照右图确定"每个模型中每个取样步骤的最佳指导尺度值"。

然后，利用上文确定的最佳指导尺度，将每个 LDM 的性能与采样成本（归一化成本 × 采样步骤）进行比较。

结果表明，在取样成本较低的情况下，较小的模型往往比较大的模型具有更好的 FID 分数。

作为测试，让我们参照右图，看看取样成本=6 和 12 的情况。

抽样成本	模型参数数	FID（越小越好）
采样成本=6	145M	约 19.
采样成本=6	866M	约 26.
采样成本=12	145M	约 17.
采样成本=12	866M	约20

上表显示，在采样成本（推理成本）较小的条件下，较小模型的性能更高。

在比较其他型号尺寸时，情况也大致如此。

下图也直观地说明了这一点。

采样器类型与效率（LDM 性能）之间的关系

在此，除了使用 DDIM 采样器外，我们还使用 DDPM 和 DPM-Solver++ 对 LDM 的性能进行了比较，以确保无论采样器类型如何，LDM 的缩放特性都能保持一致。

结果如下

左侧实线为 DDMP，虚线为 DDIM；右侧实线为 DPM-Solver++，虚线为 DDIM。

结果显示，DDPM < DDIM < DPM-Solver++。

所有采样器的共同点还有："在相同的采样成本下，无论采样器类型如何，小型采样器的性能都优于大型采样器"。

在比较相同采样成本下不同 LDM 的性能时，这一点显而易见。

下游任务中采样成本与 LDM 性能之间的关系

本文研究了 LDM 在下游任务中的采样效率，尤其是在超分辨率（SR）任务中的采样效率。

结果如下

结果显示，当采样步数低于 20 步时（左侧面板），在相同的采样成本下，较小的模型往往比较大的模型表现更好。

另一方面，当采样步数超过 20 步时，大型模型的采样效率更高。

蒸馏型和未蒸馏型的性能比较

在这里，对模型进行了预蒸馏，并对这些蒸馏模型的性能进行了比较。

具体来说，所有蒸馏模型都在四步取样法中进行了测试，每个蒸馏模型都与未蒸馏模型在归一化取样成本方面进行了比较。

结果如下

结果表明，蒸馏能明显改善所有模型在四步采样中的生成性能，并提高整体 FID 分数。然而，当采样成本约为 8 时，较小的未蒸馏 83M 模型的性能与较大的蒸馏 866M 模型相同。

这一结果进一步证明了 LDM 的缩放采样效率，这在扩散模型蒸馏中也是有效的。

摘要

本文介绍了一项调查潜在扩散模型（LDM）扩展特性的研究。

本研究的局限性之一是"本研究中提出的关于模型可扩展性的说法仅限于本研究中调查的特定模型系列"。

这意味着，本研究中确定的事实可能是由于本研究中使用了稳定扩散技术。

我个人认为，那些计算机规格有限的人不必强迫自己使用较大的机型（尽管我认为他们本来就无法运行）。

与本文相关的类别

Nakata

潜在扩散模型不一定会 "扩大规模"

潜在扩散模型越大越好

潜在扩散模型中抽样效率的研究背景

本研究的核查细节

学习计算资源与 LDM 性能之间的关系

预先训练的 LDM 在下游任务中的表现

采样成本（步数）与 LDM 性能之间的关系

采样器类型与效率（LDM 性能）之间的关系

下游任务中采样成本与 LDM 性能之间的关系

蒸馏型和未蒸馏型的性能比较

摘要

[PIDM] 物理正则化扩散模型

[PIDM] 物理正则化扩散模型

[LDDGAN]用于最快推理的扩散模型

[LDDGAN]用于最快推理的扩散模型

[MusicLDM] 低剽窃风险的文本到音乐模型

[MusicLDM] 低剽窃风险的文本到音乐模型

AudioLDM]使用潜在扩散的文本到音频生成模型

AudioLDM]使用潜在扩散的文本到音频生成模型

[CoDi]可处理几乎所有模式的任意扩散模型

[CoDi]可处理几乎所有模式的任意扩散模型

Versatile Diffusion] 融合文本和图像的扩散模型

Versatile Diffusion] 融合文本和图像的扩散模型