ResNets的学习和扩展战略为SOTA性能提供了保障!

深度学习 23/04/2021

三个要点
✔️ 一套学习和扩展策略，以提高ResNets（和EfficientNets）的准确性。
✔️ 推出ResNets-RS，比EfficientNets快三倍。
✔️ 在半监督、转移学习、视频分类任务上的表现令人印象深刻

Revisiting ResNets: Improved Training and Scaling Strategies
Written by Irwan Bello, William Fedus, Xianzhi Du, Ekin D. Cubuk, Aravind Srinivas,Tsung-Yi Lin,Jonathon Shlens, Barret Zoph
( Submitted on 13 Mar 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV )

code:.

首先

在首次推出时，ResNet架构在一些计算机视觉任务中取得了重大进展。在推出近五年后，ResNet及其衍生产品仍被广泛用于研究和实际应用。

尽管使用了更好的学习方法和超参数，但目前的研究大多集中在结构变化上。新的模型经常与用旧方法训练的旧架构进行比较（见ImgNet。在ResNet中顶部-1准确性是76.5).

当我们试图用目前的SOTA方法训练一个规范的ResNet模型时，我们发现ImageNet的顶部-1准确率从79%到82.2%。利用这些策略，我们推出了ResNet-RS，一个比EfficientNets更快的ResNet架构系列（在TPU上可达2.7倍，在GPU上可达3.3倍）。这一战略也有助于EfficientNets，因为Kinetics-400的顶部-1视频分类准确率比基线提高了4.8%。

修复ResNet

对原ResNet架构做了以下架构和训练方面的改变

结构变化

我们在所有瓶颈模型中使用ResNet-D和挤压和激励（SE），ResNet-D有以下三个变化

将茎的7×7卷积改为3×3卷积
改变了下采样块的前两个卷积的步长
下采样块的跳过连接中的stride-2 1×1卷积被改为stride-2 2×2平均池和随后的非stride 1×1卷积。
同时，stride-2个3×3的最大池层被从每个块中移除，并通过下一个resnet块的第一个3×3卷积进行降采样。

SE层通过首先对卷积块的特征图进行全局平均汇集，然后计算各通道之间的相互作用，使网络能够自适应地调整每个特征图的权重，从而对通道进行缩放。在所有的实验中，我们使用的比例是0.25。

学习变化

学习方法与EfficientNets相同，但有一些地方做了改变。

RandAugment（平移、剪切、颜色失真）、动量优化器和余弦LR调度被用来学习350个历时。
权重衰减、标签平滑、辍学和随机深度被用于正则化。

提高准确性

我们对基线ResNet-200模型进行了训练。顶部-1准确率为79.0。然而，学习方法的改进（以紫色和绿色突出显示）使我们达到了82.2%的准确率，而SE和ResNet-D架构的变化（以黄色突出显示）使准确率提高到83.4%。仅学习方法就实现了三分之二的性能提升，说明了学习方法对ImageNet性能的影响。

研究还发现，在使用正则化（如dropout DO）、随机深度（SD）、标签平滑（LS）和RandAugment（RA）时，需要抑制权重的衰减。衰减，而且有证据表明，数据增量以与权重衰减相同的方式降低了权重的L2准则，使权重衰减的效果变得多余了。

规模化战略

ImageNet用不同的宽度乘数[0.25,0.5,1.0,1.5,2.0]、深度[26,50,101,200,300,350,400]和图像分辨率[128,160,224,320,448]测试ResNet模型。所有模型都被训练了350个历时。结果显示，在低FLOPs系统中（高达10^9），误差随着FLOPs的增加而减少；在高FLOPs系统中，这一趋势被打破，增加FLOPs可能是有害的。

上述数字显示了不同图像分辨率[128,160,224,320]在10、100和350个历时中的深度缩放和宽度缩放。这里所有的模型都是用四种不同的深度[101,200,300,400]和宽度比例[1.0x,1.5x,2.0x]来训练的。我们发现，最佳的缩放策略取决于学习方法。如最右边的图所示，我们发现在高历时（350）训练时，深度缩放比宽度缩放更有利。同样，在低历时制度中，我们发现宽度缩放更有利。因此，在小的制度中建立缩放规则的一般做法，当这些规则被用于较大的制度和较长的时间时，可能就不那么有效了。学习阶段可能不能很好地概括，应该避免。为了了解最佳的缩放策略，应该在完整的训练纪元上测试一小部分不同规模的模型子集。

我们还发现，较高的图像分辨率对较小的模型是不利的。因此，建议比以前的模型（如EfficientNet）逐步扩大图像分辨率。

实验和评估

利用上述的学习和设计策略，我们训练并评估了一个名为ResNet-RS的ResNets系列。

ResNet-RS和EfficientNets的速度-准确度

尽管ResNet-RS比EfficientNet有更多的参数和FLOPs，但它在TPU上的速度却高达1.7至2.7倍。 FLOPs不包含内存访问成本（MAC）和并行性的信息，而这是决定模型速度的重要因素。多分支模块由零散的操作组成，在现代并行计算设备（如GPU和TPU）上表现不佳。由于大量的激活，EfficientNet也消耗了更多的内存。例如，与ImageNet的精度相比，一个参数是EfficientNet-B6的3.8倍的ResNet-RS模型所消耗的内存是2.3倍。

用ResNet-RS进行半监督学习

ResNets-RS是在120万张有标签的ImageNet图像和130万张伪标签图像的组合上训练的。一个具有88.4%的ImageNet准确率的EfficientNet-L2模型被用来生成伪标签。

ResNet-RS被证明是一个非常好的自我监督学习器：它比EfficientNets有更好的top-1准确性，而且速度快5倍左右。

使用ResNet-RS的转移学习

我们比较了自我监督的SimCLR和SimCLRv2与标准监督的ResNet和改进的监督学习策略（RS）的转移性能。我们试图匹配SimCLR的训练设置（RandAugment，标签平滑，dropout，减少权重衰减，400 epochs of余弦学习率衰减等），但随机深度和指数移动平均（EMA）的重量不使用。

改进后的监督表示法（RS）在5/10的下游任务中表现优于SimCLR，在8/10的任务中优于SimCLRv2。

扩展到视频分类

缩放和学习策略也可用于视频任务。学习策略将基线从73.4%提高到77.4%（+4.0%），而ResNet-D和Squeeze-and-Excitation的架构变化进一步提高了性能，达到78.2%。

摘要

诸如本文所介绍的简单策略可以使各种任务的性能得到显著改善。在本文的研究活动中，我们同时使用了来自架构变化的改进和学习方法。学习方法的改进并不总是能很好地概括，把这两种变化结合起来就很难对模型进行比较。此外，重要的是，不仅要报告参数和FLOPs的数量，还要报告模型的延迟和内存消耗。这些行为准则无疑将使研究活动更快进行。