关于四个不同的图像生成任务和扩散模型Palette的挑战

扩散模型 16/12/2021

三个要点
✔️ 所有四个任务的单一扩散模型
✔️ 调色板在所有任务上都实现了SOTA
✔️ Palette的通用性使其能够成功地进行多任务图像转换。

Palette: Image-to-Image Diffusion Models
written by Chitwan Saharia, William Chan, Huiwen Chang, Chris A. Lee, Jonathan Ho, Tim Salimans, David J. Fleet, Mohammad Norouzi
(Submitted on 10 Nov 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

简介

近年来，生成模型已经能够产生人类水平的句子（如何从GPT-3中获得真正的价值：Prompt程序设计），高度准确的图像，或类似人类的语音和音乐。在这种情况下，GANs已经获得了很多关注，有很多SOTA在手。另一方面（我们是否在图像生成方面击败了BiGAN？关于扩散模型），扩散模型最近取得了几个SOTA，显示了扩散模型的潜力。

在这篇文章中，我们提出了一篇论文，声称扩散模型能够在另外四个任务上实现SOTA。

让我们看一下结果图（图1.），第一行是输入图像，第二行是扩散模型的输出结果，第三行是用于训练的参考图像。本文有四项任务：着色，绘画，解剪，以及JPEG压缩和修复。输出结果显示，该系统非常完整，没有任何不自然的部分。

图2显示了一个生成全景视图的例子。它取一个256x256像素的中心图像，并将其扩展到每边长度的两倍。

本文的特殊之处在于，它表明不同的任务可以由一个扩散模型来完成。换句话说，本文试图说明生成式建模领域的许多任务实际上可以由图像到图像的任务所取代，而扩散模型可以为这些任务实现SOTA。

调色板

以前的研究表明，条件扩散模型可以产生高分辨率的图像，以及条件GANs（预先训练的GAN模型到超分辨率技术）Palette是以参考图像y为条件进行训练的。调色板是以参考图像Y为条件进行训练的。

关于扩散模型及其功能的更多信息，请参考附录A或相关文章（在图像生成方面击败BigGAN？关于扩散模型）。

在本文中，我们简要介绍了目标函数（方程1）。给定一个参考图像y，我们添加噪声以获得。然后训练一个神经网络，以预测噪声，其输入是图像x和，以及噪声水平。

此外，以前的一些研究表明，p=1（L1规范）更好，但我们在本研究中使用p=2，因为我们的实验证实，p=2能产生更高的样本多样性。此外，我们使用的网络架构是基于标准的U-Net，并做了一些调整。

在这个实验中，我们使用了四个定量指标来完成图像到图像的翻译任务。除了IS和FID这些生成式模型常用的衡量标准外，我们还使用了分类精度（CA），即训练好的ResNet-50的分类精度，以及感知距离（PD），即Inception-v1的表示空间中的欧几里得距离。(PD)的Inception-v1表示空间。除此以外，给人类一个参考图像和一个生成的图像，并要求其指出 "哪个图像是由相机生成的"。错误结果的百分比是通过一个新的指标来评估的，这个指标被称为傻瓜率。

实验

Palette的泛化能力在四个不同的具有挑战性的图像转换任务中得到了测试：着色，将黑白图像转换为合理的彩色图像；绘画，用最真实的内容填充被遮挡的区域；解剪，将输入的图像向多个方向扩展；以及JPEG解压，恢复JPEG压缩的图像。解剪将输入的图像向多个方向扩展，而JPEG解压则是在JPEG压缩后恢复图像。虽然任务不同，但Palette并没有为每个任务调整超参数，改变其架构或调整其损失函数。输入和输出都是256x256的RBG图像。

色素化

在以前的研究中，输出使用LAB或YCbCr图像空间进行着色，而Palette使用RGB空间。因此，从这项研究的结果来看，我们可以说，RGB与YCbCr一样有效。

图3显示了包括对比方法在内的生成图像。可以看出，本研究中使用的基线似乎比以前的研究要好。当我们看一下指标方面的结果，如表1所示，我们可以看到Palette接近参考图像，这表明提出的方法在着色方面是有效的。

绘画

和以前的研究一样，调色板是一个无形状的面具。我们不使用二进制掩码，而是使用高斯噪声掩码，这可以通过去噪扩散模型来计算。我们还通过只预测被屏蔽的区域来提高训练速度。

图4.和表2.分别显示了生成的图像和定量实验的结果，显示ImageNet和Places2数据集上的结果都是Palette更好。

取消剪裁

调色板可以向任何方向延伸，向上、向下、向左、向右或所有方向，在这种情况下，它被遮盖了50%。在这两种情况下，图像都被遮蔽了50%，被遮蔽的区域被填充了高斯噪声，就像Inpainting中一样。

结果和与以往研究的比较见图5和表3。 Palette在ImageNet和Places2数据集上都优于Baseline。特别是，高的傻瓜率表明，Palette能够产生真实的图像。

JPEG解压

和以前的研究一样，调色板在含有各种分辨率的图像上进行训练，但以前的研究使用了10个以上的质量因子（QFs），而本研究使用的QFs>=5，这更难实现。

图6和表4显示了生成的图像和定量结果：调色板的表现明显优于回归。调色板和回归之间的差异随着QF的减少而增加（任务难度越大）。

3.5 样品的多样性

在这一节中，我们研究了生成图像的多样性。以前的一项研究（SR3）表明，在扩散模型的目标函数（公式1）中，L1（p=1）的分辨率更高，但尚未进行详细分析。三个任务中生成的图像的多样性是由SSIM指数来评估的：SSIM越大，多样性指数越低。

图8显示，L2具有较低的SSIM和较高的多样性，而图7.显示，对于相同的输入，Palette可以产生更多的多样性图像。

多任务学习

虽然多任务处理在许多领域都有研究，但在影像领域的研究仍然不足。这里我们比较了同时对多个任务进行训练的Palette（多任务）和同时只对一个任务进行训练的Palette（特定任务）。恢复任务。

摘要

在本文中，我们表明扩散模型在各种图像到图像的翻译任务上优于GAN，在四个具有挑战性的任务上实现了SOTA，并重申了扩散模型作为一种先验的潜力。在之前的一项研究中（我们是否在图像生成方面击败了BiGAN？关于扩散模型）的任务更加多样化。特别是，能够在不包含特定任务信息的情况下解决一个任务的特性，有助于扩散模型的可推广性。多任务的概念第一次被调整到图像到图像的转换领域，我们期待着在这个领域的进一步研究。