无限的分辨率!解释了最新的超级分辨率、合成和增强模型，InfinityGAN!

生成对抗网络(GAN) 24/08/2021

三个要点
✔️ 通过修补，以低成本无限制地提高图像分辨率
✔️ 考虑到全局和局部因素，生成和合成无缝图像
✔️ 为超分辨率、图像合成和图像增强提出了有趣的网络结构

InfinityGAN: Towards Infinite-Resolution Image Synthesis
written by Chieh Hubert Lin, Hsin-Ying Lee, Yen-Chi Cheng, Sergey Tulyakov, Ming-Hsuan Yang
(Submitted on 8 Apr 2021)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自该文件，要么是参照该文件制作的。

Project page: this https URL

简介

在这篇文章中，我想介绍一下InfinityGAN（InfinityGAN: Towards Infinite-Resolution Image Synthesis），它最近发表在arxiv上。

虽然InfinityGAN本身并不是一个热门话题，因为它实现了SOTA，但其提出的网络结构很有意思，因为它在超分辨率、图像合成和图像增强等各个领域都有潜在的应用。首先，让我们看一下InfinityGAN生成的图像。

这是一张取自报纸的图片，但我认为它给人的第一印象很奇怪。这就是你通常在超级分辨率GAN论文中看到的那种图像。

相比之下，InfinityGAN产生的图像当然有更高的分辨率，但它们也有更大的图像区域，这似乎有点不现实。

这是由于InfinigyGAN同时进行超分辨率、图像合成和图像增强。它不仅提高了分辨率，而且还同时结合了几个图像补丁来创造一个纹理。前面的图像是1024x2048像素，实际上是由242个图像补丁组合而成的，每个补丁都经过了组合。

现有的超级分辨率模型的问题是，它们使用一个非常大的分辨率图像作为教师数据。这使得它不可能生成分辨率大于教师数据的图像，最重要的是，计算成本太高。

另外，虽然现有的纹理合成模型如SinGAN和InGAN可以生成各种尺寸的高分辨率图像，但它们并不能学习图像本身的结构，所生成的图像很可能是同一纹理的重复。

InfinityGAN通过对小的图像斑块进行迭代并考虑到全局、局部和纹理因素来解决这些问题。在一组小的图像斑块上进行训练可以保持较低的计算成本，并且可以实现超分辨率、图像合成和图像增强的综合特性。让我们仔细看看产生如此有趣结果的网络结构。

建议的方法

就像关注的情况一样，图像需要同时考虑全球和本地。从大的方面看，图像需要连贯和有背景，而且需要是一个相对紧凑（不复杂）的整体。当我们看到一个中世纪景观的图像时，我们知道它看起来是中世纪的。图像必须以某种方式完整地保留那种 "中世纪的外观"。

从局部来看，正如在卷积和其他方面所看到的，一个特写图像是由其局部邻域的结构和纹理来定义的。结构内容表示物体、形状和它们在局部地区的排列。一旦定义了结构，以这些为条件的第二步是考虑纹理。这种结构和纹理虽然是局部的，但也必须与全局一致。

通过考虑所有这些，有可能产生一个具有无限分辨率的图像。首先，一旦确定了全局画面，局部结构和纹理就可以在空间上无限扩展，只要它们遵循这个画面的背景。

概述

基于上述分析，InfinityGAN将由两部分组成：用于对整个图像建模的结构合成器Gs和用于对局部纹理建模的纹理风格合成器Gt。我们还使用低分辨率的图像斑块进行训练。这个框架如下图所示。

四个潜在的变量控制着生成过程。全局潜变量Zg被赋予Gs和Gt，以使每个图像斑块在整个图像的背景下被考虑；Gs渲染每个斑块在坐标网格c指定位置的结构；Gt渲染每个斑块在网格c指定位置的结构。斑块的局部变化是用局部潜伏代码Zl来建模的。一旦定义了结构，就可以有多种纹理，所以Gt的每一层都被赋予一个额外的条件Zn，以模拟Zg中没有的局部细部。如果在c位置生成的补丁是pc，生成过程可以描述如下，其中Zs代表结构的潜变量。

结构合成器

结构合成器是一个在神经网络中实现的隐性功能。其目的是在全局潜变量Zg和局部潜变量Zl的条件下对隐性表征进行采样，并在被查询的位置c生成一个结构。

全局潜伏变量Zg作为全局的整体表示；Zg从单位高斯分布中取样一次，并通过特征调制注入Gs的每一层和每一个像素中。

本地潜变量用Zl表示。局部变化与空间维度中的位置无关，因此对于Zl的每个空间位置，我们都是独立于单位高斯先验进行采样。在这里，独立于单位高斯分布的采样使我们能够形成一个在空间上可以无限扩展的体积张量。这个Zl被用作Gs的输入。

受制于最后采样的隐性表示是任意大小的Zg和Zl，坐标c就像一个搜索查询，以获得要从隐性图像中检索的区域。让T为正弦坐标的周期，我们将对c进行编码，如下所示

此外，在局部潜在变量Zl1和Zl2之间采用了寻模多样性损失，以防止模型忽略Zl而重复产生重复性结构。

我们还使用了特征展开的技术，使Gs能够考虑Zl和c以外的更广泛的信息。给定Gs中的一个中间特征f，使用k×k特征展开得到的特征图u是

其中Concat(-)将通道维度上的展开向量连接起来。通过使用特征扩展，c变成了一个坐标网格，而不是一个简单的三联体。

纹理合成器

你就快到了。接下来，让我们谈一谈纹理合成器。

纹理合成器使用著名的StyleGAN2模型。首先，用zS代替固定的常数输入，用zn注入随机噪声，以模拟精细的随机纹理。接下来，zg被作为映射层的输入，映射层使用多层感知器将单个zg投射到逐层风格的zT中。然后通过特征调制将风格zT注入每层的所有像素中。最后，所有的零填充被从发生器中移除，如下图所示。