CNN的内核大小是否应该增加？

论文 12/09/2022

三个要点
✔️ 拟议的具有31x31大内核的CNN架构
✔️ 成功地用5个准则缩放内核，包括使用深度-明智卷积
✔️ 预训练模型的下游任务转换性能的优异结果

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
written by Xiaohan Ding, Xiangyu Zhang, Yizhuang Zhou, Jungong Han, Guiguang Ding, Jian Sun
(Submitted on 1 Jul 2021)
Comments: CVPR2022
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍。

在一个典型的卷积神经网络（CNN）中，通过堆叠小核，如3×3，建立起一个大的感受野。

相比之下，视觉变形器（ViT）最近的主要发展--多头自留地（MHSA），只用一个单层就能实现大的感受野。

鉴于这些ViT的成功，问题来了，是否可以用少量的大核来代替现有的CNN政策，即用一个大的感受野和许多小核来使CNN更加接近ViT。

基于这个问题，本文提出了RepLKNet，一个使用31×31内核大小的CNN架构，这比一般的CNN要大。结果显示了出色的性能，包括在ImageNet上达到87.8%的Top-1准确率，以及下游任务性能的显著改善。

应用大果核的准则。

简单地将大型卷积应用于CNN会导致性能和速度的下降。为此，提出了有效利用大内核的五个准则。

准则1：大深度的卷积在实践中可以是有效的。

使用大核在计算上是很昂贵的，因为参数和FLOPs的数量随着核的大小呈四次方增加，但这个缺点可以通过应用深度明智（DW）卷积而得到显著改善。

在提议的方法中，RepLKNet（详情见下文），将内核大小从[3,3,3,3]增加到[31,29,27,23]，导致FLOPs增加18.6%，参数数增加10.4%。一个担忧是，DW卷积运算在现代并行计算机（如GPU）上可能变得非常低效。然而，由于内存访问的比例随着内核大小的增加而减少，预计实际延迟的增加不会像FLOPs的增加那样多。

备注。

普通的深度学习工具，如Pytorch，不能很好地应对大型DW卷积，所以本文使用了一个改进的实现，如下表所示。

准则2：身份捷径对于具有大内核的网络是至关重要的。

当使用带有DW卷积的MobileNet V2作为基准时，应用3x3或13x13内核的结果如下

如表所示，当有捷径可用时，使用较大的内核可以提高性能，但在不使用捷径时则会降低精度。

准则3：用小内核重新参数化（re-parameterizing()）可以改善优化问题。

用9x9和13x13替换MobileNet V2的内核大小，并应用Structual Re-parameterisation()方法进一步提高了性能，如下表所示。

该方法如下：并行建立一个大内核层和一个3X3层，在训练后将批量归一化层和3X3内核融合成一个大内核。

因此，重新参数化技术可以提高优化效果。

准则4：大卷积比Imagenet分类精度提高下游任务性能。

在上表中，显示了在ImageNet上预训练的模型在Cityscapes上接受DeepLabv3+()语义分割任务时的表现。通过将内核大小增加到9x9，ImageNet的准确性提高了1.33%，而Cityscapes mIoU提高了3.99%。

(这一趋势也在论文中提出的RepLKNet的实验结果中观察到，这可能是由于更大的内核导致有效感受野和形状偏差的增加。)

准则5：即使特征图很小（如7x7），大内核（如13x13）也是有效的。

对于MobileNet V2，相对于特征图来说，更大的内核尺寸的结果如下。

基于这五条准则，本文提出了一个名为RepLKNet的CNN架构。

建议的方法：RepLKNet。

RepLKNet是一个具有大内核设计的纯CNN架构，由以下部分组成

RepLKNet架构由干块、阶段和过渡块组成。

茎部。

干层是第一层，其设计是为了让多个定罪层首先获得详细信息，以便在下游的高密度预测任务中实现高性能。如图所示，各层按以下顺序排列：3x3卷积和2x下采样，然后是DW3x3层、1x1卷积和DW3x3层的下采样。

阶段

第1-4阶段各包含几个RepLK块，并使用捷径和DW的大内核（见准则2,1）。在DWconv前后使用1x1卷积，每个DW层使用5x5内核进行再参数化（见准则3）。

过渡区块

过渡块位于各阶段之间，1x1卷积用于较大的通道，DW3x3卷积用于2倍的下采样。一般来说，RepLKNet有三个架构超参数：RepLK块的数量$B$，通道维度$C$和核大小$K$。因此，RepLKNet的架构由$[B1,B_2,B_3,B_4], [C_1,C_2,C_3,C_4], [K_1,K_2,K_3,K_4]$定义。