我们终于发现了!是他!

风格_转移 02/07/2021

三个要点
✔️ 风格转移研究揭示了令人困惑的问题的原因
✔️ 剩余连接是原因
✔️ 具有小熵的特征图风格转换效果不佳

Rethinking and Improving the Robustness of Image Style Transfer
written by Pei Wang, Yijun Li, Nuno Vasconcelos
(Submitted on 8 Apr 2021)
Comments: Accepted by CVPR2021 (Oral)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV)

code：

背景

风格转移是创建一个风格的过程的一个图像到一个不同的内容图像。自从深度学习出现以来，这个领域受到了很多关注。

我们将解释这项研究的背景部分。在风格转移的研究中，众所周知，预先训练的VGG是有效的。甚至更好。当我们考虑Style Transfer时，很容易想到可以通过使用比VGG更准确的模型来改善它。这就是Resnet、InceptionNet和DenseNet出现的地方。但有趣的是，在这里。我的假设是准确度会提高，但令我惊讶的是，准确度明显下降。目前，问题的原因尚不清楚，正在根据各种假说进行研究。

图1.风格转换样本图

当时流行的理论是

里斯网和InceptionNet，和DenseNet。理论上讲，VGG的特征可能更强大。后来有研究认为，如果我们能通过对抗性学习提高鲁棒性，即使是Resnet也会有更好的风格转移。结果是，它成功了。我们在这里发现的是，稳健性对风格转移很重要。

然而，这一理论将在接下来的研究中再次充满神秘感。就是说。

研究表明，即使对于具有随机权重的VGGs，风格转移也是很好的。

这使我们相信，原因不在于训练或数据的稳健性，而在于模型本身的结构。事实上，在这项研究中，发现原因在于模型的结构。然而，当时并不清楚该结构的原因是什么。然而，在那个时候，我们并不知道是什么以及为什么模型的结构决定了风格转移是好是坏。

风格转换的概念

本节将解释风格转移的概念性知识。最后，在保持内容图像的轮廓的同时。由于我们只需要转换风格，我们可以把它作为 "一个优化问题来解决，寻找恰到好处的点（最小化），在反映风格的同时也照顾到内容".当Gatys等人在2015年首次提出时，优化问题是以下的方程式。让$vec{p}$成为输入的内容图像，$vec{a}$。是输入的风格图像，$vec{x}$是要生成的图像

让p设x⃗分别为输入的内容图像和样式图像，设x⃗为要生成的图像，则此

内容重建

CNN认为，网络的较高层可以捕捉到图像的高阶内容。在内容损失中，从内容图像$vec{p}$和生成的图像$vec{x}$中提取一个特定的特征图，其平均平方误差被作为损失。$F^l_{i_j}$为生成图像的第l层中特征图的i,j位置的激活，$P^l_{i_j}$为内容图像的激活。

风格重建

图像的风格是由每层中各个过滤器输出的相关性来表示的。相关性是由格拉姆矩阵给出的，它是两个特征图之间的内积。

然后，取生成图像的特征图的格拉姆矩阵与原始风格图像的格拉姆矩阵的结果之差，以获得均方误差。

结果

这里我们展示了预先训练好的模型和用随机权重初始化的网络的结果。前缀 "r-"和 "p-"分别表示模型是随机初始化的还是在ImageNet上预训练的。对于VGG和ResNet模型，我们使用VGG19和ResNet-50。

风格转换的结果

b到e显示了r-VGG、p-VGG、r-ResNet和p-ResNet网络的例子。可以看出，性能因网络结构的不同而有很大差异：与p-VGG相比，p-ResNet无法传输更多的颜色图案。这一点对于随机模型 "r-"来说更加明显，r-ResNet未能转移风格。

接下来，为了研究为什么两种架构的性能相差如此之大

使用剩余连接
折叠，尺寸在1×1、3×3和7×7之间变化。
将深度改为可变
批量规范化
改变每层的通道数量
固定跨度2和Maxpooling的比较

我们将对许多网络结构进行消融研究。(各种结果请见本文的补编)

使用剩余连接

在这篇文章中，我们将展示使用 "剩余连接 "的结果，这也是本文主要话题 "为什么Resnet在样式转移时失去了准确性 "中最重要的结果。

我们通过比较几个架构在移除或添加剩余连接后的结果来证明这一主张。我们通过去除所有的剩余连接来建立 "NoResNet"。r-NoResNet的表现似乎比r-ResNet更接近r-VGG。然而，它是相当微妙的。接下来，我们研究了其他几个修改的效果，以使NoResNet更接近VGG。

用VGG的3×3卷积代替7×7卷积
用没有剩余连接的ResNet-34基本块模块替换了瓶颈模块。
与VGG类似，在每个阶段之间增加了Maxpooling，以减少特征图的大小。

由此产生的架构被称为 "伪VGG"；如g所示，这些修改使风格转移的性能更接近r-VGG。然而，作者此时认为，去除残余连接是决定性的因素，但我发现两者在图像中同样不成功。

然而，我将 "剩余连接 "重新引入伪VGG，并创建了 "伪ResVGG"。看一下结果h，很明显，剩余连接现在正在破坏以前的贡献。事实上，伪ResVGG的结果最差。换句话说，ResNet由于剩余连接（Residual Connection）的原因，结果表现不佳。

为什么残余连接是不可取的

为什么 "剩余连接 "对于风格化来说是不可取的？在这种情况下，风格的优化只基于原始和合成风格的网络的克矩阵$G^l$。所以我们可以说，它是由特征图主导的。因此，我们首先要把网络的激活和它的克氏矩阵的统计数字可视化。图中显示了10个风格图像的r模型每个网络最后一层的激活情况，以及格拉姆矩阵$max_{i_k}$,$F^l_{i_k}$和$max_{i_j}$,$G^l_{i_j}$的最大值。的平均值和归一化熵的$G^l_{i_j}$。图中显示，激活值和格拉姆值的行为方式相似。在这两种情况下，对于具有残差连接的架构（ResNet和pseudo-ResVGG），最大值随着层的深度增加而增加，熵也逐渐减少。这与没有捷径的网络（NoResNet和pseudo-VGG）不同，后者的激活趋于减少，熵几乎是恒定的，而且要高得多。在某些情况下，如pseudo-ResVGG，残差值引入连接后，深层的最大熵变大，熵值接近于零。换句话说，激活是由单一特征通道中的决定性相关模式主导的。

熵小的结果也与风格转换准确率低的解释相一致：风格优化中唯一的变量是激活$F^l(x)$，它有一个与风格图像$F^l(x^s_0)$尽可能相似的格拉姆矩阵。所以$x^s_0$。从$F^l(x^s_0)$得到的格拉姆矩阵是 "峰值"（低熵）的，那么优化就是使峰值等于从$x^∗$得到的矩阵。简而言之，格拉姆矩阵的剩余条目几乎变得毫无意义。

建议的方法

现在你可以看到所提出的方法是如何实现的：如果我们使用Softmax系统来平滑特征表示并增加熵，我们可以改善原因，风格转移的准确性也将得到改善。

因此，作者提出了 "激活平滑的风格化"（SWAG）。实际公式等请参考该文件。这是一个简单的建议，我们实际上是在激活中加入了平滑。

SWAG结果

上图$ResNet^∗$是适应的实际结果，我们可以看到最大值被抑制，熵值增加，特别是在较深的层。这也是风格转移的结果。

可以看出，尽管有ResNet，但转移是相当准确的。在这两种情况下，SWAG自适应模型都极大地提高了风格化图像的质量，即转移了更复杂的风格模式。r-ResNet∗的结果接近r-VGG，p-ResNet∗似乎也优于p-VGG。我们接下来对这一点进行定量评估。请注意，有几种平滑激活和降低熵的方法，如不同温度下的softmax，嵌套softmax，甚至乘以一个小常数（<0.1），在我们的实验中证明是有效的，但作者选择了最简单的选择Softmax是因为它不需要任何超参数，而且很简单。同样，我认为这个想法是要考虑到超参数可能导致了改进的事实。

以下是用户调查的结果。

在用户评价中，SWAG适应性模型得到了压倒性的评价。与迄今为止一直占主导地位的VGG相比，SWAG适应性模型在用户评价中也有压倒性的评价。

摘要

VGG在风格转移方面占据主导地位的原因，直到现在还笼罩在神秘之中，终于被揭开。我首先了解到这个问题的原因之一是这篇文章中的一个图表(Neural Style Transfer with Adversarially Robust Classifiers)。该图显示在下图中。这张图显示，Resnet、InceptionNet和DenseNet可以很容易地转移非鲁棒性特征。换句话说，Resnet在风格转移方面表现不佳（人类视觉感觉不舒服）的原因是它不容易转移非健壮的特征。

这是一个对抗性例子的研究领域，但它在2019年前后成为风格转换领域的一个热门话题，因为这些发现与风格转换的研究是一致的。