赶上最新的AI论文

ResNets的学习和扩展战略为SOTA性能提供了保障!

深度学习

三个要点
✔️ 一套学习和扩展策略,以提高ResNets(和EfficientNets)的准确性。
✔️ 推出ResNets-RS,比EfficientNets快三倍。
✔️ 在半监督、转移学习、视频分类任务上的表现令人印象深刻

Revisiting ResNets: Improved Training and Scaling Strategies
Written by Irwan Bello, WilliamFedus, Xianzhi Du, Ekin D. CubukAravind Srinivas,Tsung-Yi Lin,Jonathon Shlens, Barret Zoph
( Submitted on 13 Mar 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV )

code:. 

首先

在首次推出时,ResNet架构在一些计算机视觉任务中取得了重大进展。在推出近五年后,ResNet及其衍生产品仍被广泛用于研究和实际应用。

尽管使用了更好的学习方法和超参数,但目前的研究大多集中在结构变化上。新的模型经常与用旧方法训练的旧架构进行比较(见ImgNet。在ResNet中顶部-1准确性是76.5).

当我们试图用目前的SOTA方法训练一个规范的ResNet模型时,我们发现ImageNet的顶部-1准确率从79%到82.2%。利用这些策略,我们推出了ResNet-RS,一个比EfficientNets更快的ResNet架构系列(在TPU上可达2.7倍,在GPU上可达3.3倍)。这一战略也有助于EfficientNets,因为Kinetics-400的顶部-1视频分类准确率比基线提高了4.8%。

修复ResNet

对原ResNet架构做了以下架构和训练方面的改变

结构变化

我们在所有瓶颈模型中使用ResNet-D和挤压和激励(SE),ResNet-D有以下三个变化

  1. 将茎的7×7卷积改为3×3卷积
  2. 改变了下采样块的前两个卷积的步长
  3. 下采样块的跳过连接中的stride-2 1×1卷积被改为stride-2 2×2平均池和随后的非stride 1×1卷积。
    同时,stride-2个3×3的最大池层被从每个块中移除,并通过下一个resnet块的第一个3×3卷积进行降采样。

SE层通过首先对卷积块的特征图进行全局平均汇集,然后计算各通道之间的相互作用,使网络能够自适应地调整每个特征图的权重,从而对通道进行缩放。在所有的实验中,我们使用的比例是0.25。

学习变化

学习方法与EfficientNets相同,但有一些地方做了改变。

  1. RandAugment(平移、剪切、颜色失真)、动量优化器和余弦LR调度被用来学习350个历时。
  2. 权重衰减、标签平滑、辍学和随机深度被用于正则化。

提高准确性

我们对基线ResNet-200模型进行了训练。顶部-1准确率为79.0。然而,学习方法的改进(以紫色和绿色突出显示)使我们达到了82.2%的准确率,而SE和ResNet-D架构的变化(以黄色突出显示)使准确率提高到83.4%。仅学习方法就实现了三分之二的性能提升,说明了学习方法对ImageNet性能的影响

研究还发现,在使用正则化(如dropout DO)、随机深度(SD)、标签平滑(LS)和RandAugment(RA)时,需要抑制权重的衰减。衰减,而且有证据表明,数据增量以与权重衰减相同的方式降低了权重的L2准则,使权重衰减的效果变得多余了。

规模化战略

ImageNet用不同的宽度乘数[0.25,0.5,1.0,1.5,2.0]、深度[26,50,101,200,300,350,400]和图像分辨率[128,160,224,320,448]测试ResNet模型。所有模型都被训练了350个历时。结果显示,在低FLOPs系统中(高达10^9),误差随着FLOPs的增加而减少;在高FLOPs系统中,这一趋势被打破,增加FLOPs可能是有害的。

上述数字显示了不同图像分辨率[128,160,224,320]在10、100和350个历时中的深度缩放和宽度缩放。这里所有的模型都是用四种不同的深度[101,200,300,400]和宽度比例[1.0x,1.5x,2.0x]来训练的。我们发现,最佳的缩放策略取决于学习方法。如最右边的图所示,我们发现在高历时(350)训练时,深度缩放比宽度缩放更有利。同样,在低历时制度中,我们发现宽度缩放更有利。因此,在小的制度中建立缩放规则的一般做法,当这些规则被用于较大的制度和较长的时间时,可能就不那么有效了。学习阶段可能不能很好地概括,应该避免。为了了解最佳的缩放策略,应该在完整的训练纪元上测试一小部分不同规模的模型子集。

我们还发现,较高的图像分辨率对较小的模型是不利的。因此,建议比以前的模型(如EfficientNet)逐步扩大图像分辨率。

实验和评估

利用上述的学习和设计策略,我们训练并评估了一个名为ResNet-RS的ResNets系列。

ResNet-RS和EfficientNets的速度-准确度

尽管ResNet-RS比EfficientNet有更多的参数和FLOPs,但它在TPU上的速度却高达1.7至2.7倍。 FLOPs不包含内存访问成本(MAC)和并行性的信息,而这是决定模型速度的重要因素。多分支模块由零散的操作组成,在现代并行计算设备(如GPU和TPU)上表现不佳。由于大量的激活,EfficientNet也消耗了更多的内存。例如,与ImageNet的精度相比,一个参数是EfficientNet-B6的3.8倍的ResNet-RS模型所消耗的内存是2.3倍。

用ResNet-RS进行半监督学习

ResNets-RS是在120万张有标签的ImageNet图像和130万张伪标签图像的组合上训练的。一个具有88.4%的ImageNet准确率的EfficientNet-L2模型被用来生成伪标签。

 

ResNet-RS被证明是一个非常好的自我监督学习器:它比EfficientNets有更好的top-1准确性,而且速度快5倍左右。

 

使用ResNet-RS的转移学习

我们比较了自我监督的SimCLR和SimCLRv2与标准监督的ResNet和改进的监督学习策略(RS)的转移性能。我们试图匹配SimCLR的训练设置(RandAugment,标签平滑,dropout,减少权重衰减,400 epochs of余弦学习率衰减等),但随机深度和指数移动平均(EMA)的重量 不使用。

改进后的监督表示法(RS)在5/10的下游任务中表现优于SimCLR,在8/10的任务中优于SimCLRv2。

扩展到视频分类

缩放和学习策略也可用于视频任务。学习策略将基线从73.4%提高到77.4%(+4.0%),而ResNet-D和Squeeze-and-Excitation的架构变化进一步提高了性能,达到78.2%。

摘要

诸如本文所介绍的简单策略可以使各种任务的性能得到显著改善。在本文的研究活动中,我们同时使用了来自架构变化的改进和学习方法。学习方法的改进并不总是能很好地概括,把这两种变化结合起来就很难对模型进行比较。此外,重要的是,不仅要报告参数和FLOPs的数量,还要报告模型的延迟和内存消耗。这些行为准则无疑将使研究活动更快进行。 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们