赶上最新的AI论文

在模型的特征中出现的块状结构是什么?

深度学习

三个要点
✔️ 研究深度神经网络的广度和深度
✔️ 发现特征中的块状结构
✔️ 表明块状结构与许多因素有关

Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural Network Representations Vary with Width and Depth
written by Thao NguyenMaithra RaghuSimon Kornblith
(Submitted on 29 Oct 2020 (v1), last revised 10 Apr 2021 (this version, v2))
Comments: Accepted by ICLR 2021.

Subjects: Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自该文件,要么是参照该文件制作的。

简介

对于深层神经网络来说,一个简单的缩放其宽度和深度的方法往往能提高精确度。因此,这种方法已成为基本方法,但对不同深度和宽度的属性变化会带来什么以及它们如何影响模型的理解有限。随着用于设计和训练新网络架构的计算资源不断增加,理解这一基本问题尤为重要。换句话说,深度和宽度如何影响所学的表征

本文的贡献如下。

  • 开发了一种基于中心核对齐(CKA)的方法,以有效地测量使用迷你批次的广义和深层神经网络的隐藏表征的相似性。
  • 我们将该方法应用于不同的网络架构,发现广义和深义模型的表征呈现出一种特征性的结构(我们称之为块状结构)。此外,我们调查了不同训练之间的块状结构如何变化,发现块状结构和模型的过度参数化之间存在着联系。
  • 进一步的分析表明,块状结构对应于具有单一主成分的隐藏表征,该主成分解释了表征的大部分方差,该主成分被存储并传播到相应层。我们还表明,具有块状结构的隐藏层可以在对性能影响最小的情况下进行修剪。- 对于没有块状结构的模型,在相应的层中发现了表征的相似性,但发现块状结构的表征是针对每个模型的。
  • 最后,我们研究了不同深度和宽度对模型输出的影响,发现宽和深的模型分别产生了不同的误差。

实验设置

实验设置使用在标准图像分类数据集CIFAR-10、CIFAR-100和ImageNet上训练的ResNet,在每个阶段,我们分别通过增加通道和层的数量来调整网络的宽度和深度。当我们改变这些时,我们会分析这些特征。

使用小型批处理CKA测量表达性相似度

分析神经网络中的隐藏表征困难的原因之一是

  • 大尺寸
  • 该层中重要特征的分布性质,可能取决于一个以上的神经元
  • 不同层的神经元之间没有对齐

由于一些原因,这很难分析。

然而,中心核对齐(CKA)解决了这些挑战,并通过计算激活矩阵对之间的相似性,为定量研究神经网络的代表性提供了一种强有力的方法。具体来说,我们使用Kornblith等人以前为此目的验证的线性CKA,并对其进行调整,以允许使用小型批次进行有效估计。

CKA将两层的表征作为输入,并输出0(=不相似)和1(=相似)之间的相似度分数。下图非常清楚地显示了事情。

引自谷歌人工智能博客,《广义和深层网络学习相同的东西吗?

我们首先调查了一个模型的架构的深度和广度是如何影响其内部表示结构的。不同架构的不同隐藏层的表征相互之间有多大的相似性(或不相似性)?

结果

块状结构

事实证明,你在图中越往右走(宽度和深度增加),出现的块状结构就越多。块状结构是出现了一大组具有非常相似特征表示的连续层。这在热图中显示为一个黄色的方块。

我们展示了在CIFAR-10上训练不同深度(顶行)和宽度(底行)的ResNets的结果。我们计算同一模型中所有层对的表征相似度。当然,由于它们是同一个模型,我们可以在对角线上看到高度相似的线条。另外,正如预期的那样,由于跳过,残余连接的表现在网格上不太相似。此外,我们可以看到,与ResNet块内的表征相比,后遗症(后几层)表征与其他后遗症表征更为相似。对于没有残余连接的模型,也有同样的趋势。(原始出版物附录中的图C.1)

块状结构和模型超过参数

我们发现,随着模型的深度和宽度的增加,块状结构出现。下一个问题是,块状结构是与模型的绝对大小有关,还是与模型相对于训练数据的大小有关。

一般来说,一个模型的参数多于训练集的样本数。换句话说,训练数据中的样本数量往往小得多。然而,据报道,即使在这种超参数的情况下,也可以通过保持数据实现高性能。

改变网络的宽度和数据集之间的关系如下图所示。(关于改变网络深度的情况,见原附录中的图D.2)。)

可以看出,随着训练数据量的减少(在柱状方向),块状结构出现在较窄的(左下)网络中。这些结果表明,内部表征的块状结构发生在与训练数据集相比严重过度参数化的模型中。

探索区块结构

目前正在进行额外的实验,以进一步研究块状结构。在区块结构和准确性之间的关系、模型之间的表征比较以及模型误差分析方面有很多有趣的工作。由于不可能涵盖所有这些,我们将只介绍导致最有趣的结果的一个,即与准确性的关系。如果你对其他结果感兴趣,请务必查看原始出版物。用线性探针进行了额外的实验(Alain & Bengio, 2016),以进一步了解区块结构。

块状结构和精度

我们已经看到,块状结构存储表征。现在我们将研究这些存储的表征如何影响整个网络的任务表现,以及块状结构是否能以对性能影响最小的方式进行分解。换句话说,我们将研究区块结构和准确性之间的关系。我们认为你可能对与准确性的关系感兴趣,所以我们在此介绍。

在下图中,对于网络的每一层,我们都学习了一个线性探针,从层的表示映射到输出类。下图显示了每个层的线性探针在剩余连接之前(橙色)和之后(蓝色)的准确性。可以看出,对于没有块状结构的模型,准确度在整个网络中单调增加,而对于有块状结构的模型,线性探测的准确度在块状结构内几乎没有增加。比较残余结合前后各层探针的准确性,我们看到在块状结构内,残余结合在保留表征方面发挥了重要作用。

摘要

这一次,我们对扩展深度神经网络的宽度和深度对模型的影响有了了解。一个关键因素是出现了一个块状结构。观察这个块状结构,还得出了一些其他的结果。虽然我们在本文中省略了这些内容,但可能带有块状结构的模型在中间被切断,而对测试精度影响不大,而且在不同种子之间进行比较时,精度损失的速度与存在的块状结构的大小有关,块状结构可能表明模型设计中存在冗余。例如,其组成层的表示方法的相似性可用于压缩模型,未来对新定义的块状结构的分析可能提供一个机会,以更清楚地了解最佳模型以及准确性和模型之间的关系。

原书提供了大量的分析,所以如果你有兴趣,请你一定要看一下原书。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们