Cutblur:超分辨率任务的最佳数据增强是什么?
三个要点
✔️全面研究超分辨率任务中的数据增强方法
✔️ Cutblur让模型学习应该在哪里以及如何超分辨率
✔️各种基准。在超分辨率和去噪任务中提高感知质量。
Rethinking Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy
written by Jaejun Yoo, Namhyuk Ahn, Kyung-Ah Sohn
(Submitted on 1 Apr 2020 (v1), last revised 23 Apr 2020 (this version, v2))
Comments: Accepted to arXiv.
Subjects: Image and Video Processing (eess.IV); Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
首先
自DNN发展以来,与其他计算机视觉领域一样,大部分SoTA图像的超分辨率是通过数据驱动的Nerural Network(NN)来实现的。NN的一个常见问题是由于网络长度而增加学习成本。对于典型的图像分类任务,各种数据增强(DA)技术与花式网络开发并行使用以提高性能,但对于超分辨率任务的研究很少。根据经验可知,专注于单个任务的DA可以抑制过度学习,并对模型泛化有显著贡献。在这样的背景下,DA在超分辨率任务上的可能性也是值得探讨的。
在本文中,我们介绍了2020年在CVPR上报告的"Rethinking Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy"。"在CVPR2020上报告。如下图所示,本文全面研究了围绕超分辨率任务的各种DA。此外,本文不仅重新应用了在分类任务中发现的现有方法等,还对超分辨率任务的最优DA方法进行了新的研究。这些是Cutblur 和CutMixup。其中,Cutblur之所以备受关注,是因为它是一款专注于超分辨率任务的智能DA,CutMixup则被应用于分类任务。文中,大量介绍了这些方法的结果和分析,并包括了基于任务的DA的重要发现。
在本文中,我们将从以下四个部分来解释本文。
- 超分辨率任务的传统DA方法分析
- Cutblur如何工作
- Cutblur在模式上鼓励什么学习?
- 综合实验结果
超分辨率任务的传统DA方法分析
数据级扩展
首先,我们来看看超级分辨率在当前数据级扩展上的工作原理:DIV2K和RealSR是超级分辨率任务中使用的合成/真实数据集,PSNR是计算图像近似度的评价指标,EDSR是基线单图像超级分辨率模型。EDSR是基线单图像超分辨率模型。从每一种DA方法的结果来看,我们可以看到所有Augmentations的分数都比基线有所提高。特别是在本表中应注意以下两点。
- CutMixup是Cutmix的一种新方法,其边界变化较少=>比Cutmix的精度高。
- 混合型(Mixup,CutMixup,RGB perm)比Cut型(Cutout,CutMix)更准确。
这两点说明,在超分辨率任务中,抑制图像的结构变化是很重要的,在Cut系统中,图像的一部分被切掉,导致结构发生较大变化,而在Mix系统中,结构信息被保留下来。对于分类任务来说,CutMix非常出色,但对于超分辨率来说,CutMix的效果并不好,说明Mixup或者简单的RGB转换更适合超分辨率任务。事实上,改变了Cutout矩形的大小,并放弃了额外的结构信息时,准确度变差了,如下图所示,这更加证实了这一说法。红线最缺)。
功能级扩展
一般来说,DA通常指的是之前的数据级扩展,但从更广泛的意义上来说,DA还包括对特征空间的操作。最典型的例子是Dropout,它忽略了某个神经。其他的例子还有Manifold Mixup,它混合了中间层的输出,以及ShakeShake和ShakeDrop,它通过随机数打乱了前向和后向的权重更新计算。这些特征操作统一降低了超分辨率任务的得分,如下图所示(ManifoldMixup,ShakeDrop),可以确认在RCAN和EDSR模型中,+MM和+SD都低于基线。其原因与上述几乎相同,认为是由于卷积后特征层面的结构信息受到较大干扰所致。
但为什么不同的任务会出现这种情况呢?简单来说,分类模型的目的是对图像的最终抽象,而超分辨率任务的目的是对图像的具体化(还原)。有人认为,这种层次的差异(*)导致了在图像空间中保持结构信息(包括局部和全局)的必要性。在文献中,我们用高层和低层来指代这种区别。
Cutblur如何工作
从传统DA的分析中,我们了解到的是,保留结构信息的DA很重要。基于这种认识,Cutblur自然而然地解决了这个问题。Cutblur通过上图所示的操作,将低分辨率的图像切割并粘贴成高分辨率的图像。简单的说,就是让图像的某一部分变得低分辨率。这可以用符合CutMix的数学表达式表达如下。
$hat{x}_{HR→LR}=M \odot x_{HR} + (1-M) \odot {x^s}_{LR}$。
$hat{x}_{LR→HR}=M \odot {x^s}_{LR} + (1-M) \odot x_{HR}$。
其中$x_{LR}$为低分辨率图像,$x_{HR}$为高分辨率图像。只提供不同分辨率的CutMix图像。不同分辨率的图像,我们需要将低分辨率的图像与高分辨率的图像对齐,以便将它们映射到同一空间区域。具体来说,我们将图像放大到$x_{HR}$,如${x^s}_{LR}$。下面总结一下这个Cutblur的特点。你可以看到,这个DA是针对超分辨率任务优化的。
- 它不会像CutMix那样,因为内容变化而导致图像的边界突然变化。
- 也不会像香草混搭那样产生不真实的画面。
- 它不会像Cut系统那样产生结构信息的缺失。
Cutblur在模式上鼓励什么学习?
文中表明,Cutblur可以让模型学习在哪里以及如何超解析。换句话说,模型学习在哪里以及如何进行超分辨率,即在哪里保留原来的高分辨率部分,在哪里集中处理低分辨率部分。
高分辨率的部分还是有的。
在上图中,可以看出当输入高分辨率图像(HR)时,基线单幅图像超分辨率会过度强调边缘,以至于伤害眼睛(EDSR w/o Cutblur)。然而,Cutblur训练的模型不会不必要地强调边缘。(参考图中,如果看蓝色和黄色的残像,可以看到在w/o Cutblur的情况下,残像的轮廓很清晰,而在w/Cutblur的情况下,几乎没有残像,而且是纯蓝色的→即没有过度解析)。
集中在低分辨率区域
Cutblur还可以改善图像中包含的低分辨率区域。在上图中,将Cutblur图像输入到各个模型中,可以看到w/在HR区域几乎没有残差,而在LR区域则抑制了尖锐的残差(虽然乍一看没有区别,但如果你绷紧眼睛,可以看到LR区域右侧的红白矩形。).虽然有批评认为这样的条件在真实图像中是有限的,但本文以焦外图像为反例,称这样的条件存在于现实世界的各种图像中。在上述基础上,传统的HR图像只学习如何在全局范围内超分辨率,但Cutblur图像可以学习在哪里超分辨率和如何超分辨率。
综合实验结果
最后,来看一下实验结果。在本文中,我们将重点关注以下三个实验,尽管在本文中也有一些实验考虑了模型大小和数据集大小的多样性。
- SR在各种基准上的表现
- 在类似Cutblur的真实图像上进行验证。
- 通过低级图像还原任务进行验证(去噪)
SR在各种基准上的表现
上表显示了合成数据集(DIV2K)和真实图像数据集(RealSR)的结果,其中CARN为小尺度模型,RCAN和EDSR为大规模模型。此外,小规模的模型,如CARN。对于CARN这样的小模型,SR性能较低,没有时间训练Cutblur,导致训练不足,建议性能较低。然而,我们可以看到,即使是这样一个小模型也有助于真实图像数据集上的分数提升。下图为Urban100的定性结果。因为是合成数据集,CARN只能做这么多,但对于其他模型来说,过于尖锐的残差会被抑制。
在类似Cutblur的真实图像上进行验证。
下面是一个高分辨率和低分辨率混合的实际图像的例子。具体来说,前景和背景的分辨率不同。左边是来自网络的图片,右边是iPhone 11 Pro拍摄的图片。在iPhone11右侧的例子中尤其明显,在不使用Cutblur的情况下,红框中显示的字母周围的区域是模糊的,给人一种奇怪的感觉,但是在使用Cutblur的情况下,就不会出现这种情况,残像明显得到了改善。至于左边的鸟,可以确认w/的超分辨率比较合理,尤其是眼睛和脸部。这说明Cutblur是有效的,因为真实图像中存在类似Cutblur的情况。
通过低级图像恢复任务进行验证
最后一项任务是去除图像中的高斯噪声,其中Train $\sigma$表示应用多少噪声来训练模型。在测试中,他们应用$\sigma=30$的噪声;LPIPS的数值越低,只意味着越好的改进。此外,SSIM和LPIPS比PSNR更接近人类的感知。除了最下面一排的PSNR外,其他的都有改善。从下图中也可以看到,当输入测试图像:右上角时,基线:左下角过度去除(模糊)噪声以提高PSNR,而建议:右下角去除噪声更为合理。
摘要
在这篇文章中,解释了超分辨率任务的最佳DA方法,重点是Cutblur,它不仅可以学习如何,而且可以学习模型应该在哪里进行超分辨率。在本文中,我们省略了原论文中的一些广泛比较。这篇论文是对基于任务的DA的一个非常有逻辑性和实验性的研究,如果你正在考虑基于任务的DA,即使你对超级分辨率不感兴趣,也一定要看。每天都有越来越多华而不实、复杂、大规模的网络模型出现,可以预见,这种综合性DA研究的需求将在雷达下持续增长。
与本文相关的类别