一个新的尺寸调整器,提高了图像任务的性能!
三个要点
✔️一种基于CNN的新型图像重构方法。
✔️在各种架构上工作,不断提高性能。
✔️启用任意缩放系数的图像大小调整。
Learning to Resize Images for Computer Vision Tasks
written by Hossein Talebi, Peyman Milanfar
(Submitted on 17 Mar 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:![]()
首先
近年来,计算机视觉领域的两个主要成就是CNN和大型数据集,如ImageNet。除了这两项重要成就外,训练方法和数据增强方面的进展也促进了CNN的性能提高。另一方面,图像大小是一个没有得到那么多关注的方面。在过去,通常的做法是将图像降样到较低的分辨率(224x224),用于训练和评估,使用的方法包括近邻、双线性和双立方体调整大小。这主要是由于三个原因:1)内存的限制,2)迷你批量训练需要相同大小的图像,3)训练速度。这种信息的损失对CNN的准确性有很大影响。
在最近的工作中,在学习增强模块方面取得了进展,这些模块被优化以提高准确性。由于识别模型的目标是提高最终的准确度,人们认为优化模块使中间图像对人类来说 "看起来不错 "并不是必要的。
在本文中,介绍他们提出的一个新颖的自适应图像调整器,它与分类模型同时训练。图像调整模块可与各种分类模型,如Inception、DenseNet、ResNet、EfficientNets等,以及任意的缩放系数配合使用。
图像扩容模型
这个图像调整器模型很简单,可以应用于任何一种架构。它还支持图像升频和降频,使你能够有效地找到特定架构的最佳批次大小和图像分辨率。
上图显示了该架构。有两个主要特点:1)双线调整大小;2)跳过连接,以整合调整后的CNN特征和双线调整的特征。在上图中,双线性调整器作为一个前馈瓶颈。这可以用来提升图像的档次。双线性调整器也可以被其他可微调的调整技术所取代,如双立方和兰佐斯。
该模型有相同的残差块,r={1,2,3}。所有中间卷积层都有n=16个大小为3×3的核,只有第一层和最后一层由7×7的核组成。我们还使用了批量归一化层和LeakyReLu激活(负斜率系数为0.2),如上图所示。
上表显示了模型中的参数数量(千个)。即使是最大的模型(93.37(千个)参数)也比基线ResNet-50的2300万个参数小得多(0.4%)。因此,这个模型并没有增加那么多的计算负荷。为了训练模型,他们使用一个sigmoid层来产生logit和交叉熵损失。我们还使用了0.1的标签平滑度来减少模型的过度自信。
除了分类模型外,还在AVA数据集上训练了一个图像质量评估模型(IQA),以评估该模型对调整后的图像的质量。AVA数据集有一个由人类注释的1到10分的直方图。因此,最后一个是由一个输出对数为10的softmax层组成。这个IQA模型是用Earth Mover's Distance(EMD)回归损失来训练的。
pk和qk是第k类(在AVA数据集中K=10)的预测值和标签。这种损失导致模型学习人类评级的分布。
实验
首先,他们使用双线性和双三次方的方法训练基线模型。这些经过训练的CNN模型的权重被用来初始化将要使用的分类和IQA模型。拟议的调整器是在224x224到448x448的各种图像尺寸上训练的,调整器的输入尺寸总是保持在输出尺寸之上。由于内存的限制,批处理的大小会被调整。
上表显示了对ImageNet数据集的分类结果。粗体数字强调了224x224类别中的性能。可以看到,随着提高输入分辨率,DenseNet-121、ResNet-50和MobileNet-v2的性能得到了改善,而Inception-v2的性能却没有改善。
这里有一些用各种模型做的调整尺寸的图片样本。调整器模型倾向于强调高频细节;用MobileNet-v2以外的模型形成的图像非常清晰。
上表显示了AVA数据集的结果。性能的衡量标准是地面真实分数的平均值与预测分数的平均值之间的相关性。这里我们使用皮尔逊线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)。如同在分类任务中一样,调整器一直在提高基线模型的性能。
为了测试调整器模型的通用性,他们用其他CNN模型替换了CNN模型,同时保持调整器不变。通过大约四个历时的微调,他们能够有效地使调整器模型适应目标模型。
调整器模型中有两个超参数:重块的数量(r)和过滤器的数量(n)。校准的结果如下。发现n=16和r=1是最佳的。
摘要
本文提出的图像调整器显著提高了图像分类任务的性能,无论使用何种架构。然而,仍有很大的改进余地。在调整器模型中,需要调整两个额外的超参数(r,n),在一个架构上训练的调整器在用于另一个架构时需要再次进行微调。未来的工作将需要开发一个通用的自适应调整器模型(one-fits-all),适用于其他任务,如图像分割、物体检测和视觉文本任务。
与本文相关的类别