赶上最新的AI论文

模型和先前学习尺度对灾难性遗忘的影响。

持续学习

三个要点
✔️ 调查预学习模型的灾难性遗忘情况
✔️ 证明更大的预训练模型对灾难性遗忘的抵抗力更强
✔️ 证明模型类表征的相似性与预训练模型之间的关系。

Effect of scale on catastrophic forgetting in neural networks
written by Vinay Venkatesh RamaseshAitor LewkowyczEthan Dyer
(Submitted on 29 Sep 2021)
Comments: ICLR2022


code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍。

大规模的预学习模型在计算机视觉和自然语言处理领域被积极研究。

那么,作为机器学习中的一个主要问题,灾难性遗忘对这种预训练模型有什么影响?

本文介绍了对大规模预训练模型的研究,包括灾难性遗忘的程度随模型和数据集大小而变化。

实验装置

关于任务

实验使用了CIFAR-10和CIFAR-100数据集,并在一个标准的任务分区设置中进行了评估。在CIFAR-10中,学习是在两个由五类组成的任务中依次进行的。在CIFAR-100中,学习被分成10个或50个等级。实验也是在输入分布转移的情况下进行的。在这种情况下,20个超类的固定子集被抽样,每个任务都有不同的子类。

语言模型的实验使用IMDb评论和英语维基百科数据集来预测下一个标记的生成任务。

关于模型

调查灾难性遗忘的模型是Vision Transformer(ViT)和ResNet,其参数和其他设置如下。

关于学习时的设置

在对每个模型进行预训练时,ImageNet21k数据集由大约26000个类别组成,包含大约1400万张图像,与Adam优化器一起使用。在微调期间,使用β=0.9的SGD优化器进行训练。第一个任务采用线性预热和余弦衰减时间表,此后采用固定的学习速率。

实验结果

模型规模和灾难性遗忘

最初,研究了预训练模型的大小与灾难性遗忘之间的关系。结果如下。

在这个图中,Split CIFAR-10的第一个任务(任务A)和第二个任务(任务B)对不同大小的模型的性能进行了绘制。

如图所示,对于Vision Transformer和ResNet来说,参数数量较多的模型,其性能下降的幅度往往较小。例如,具有5.7M参数的Vit-xS显示出大约6.5%的精度损失,而具有86.7M参数的Vit-B显示出小于0.5%的精度损失。此外,对于Split CIFAR-100(10个班×10个任务和50个班×2个任务)来说

左图显示了ViT-B模型在训练10个任务时的准确率,每个任务的平均准确率损失为1.8%,最大准确率损失为2.9%。右图显示了每个ViT在CIFAR-100上的精度损失(2个任务),同样,模型越大,精度损失越低。

输入分布移位设置如下。

一般来说,先验学习模型的规模越大,对灾难性遗忘的抵抗力就越强。

微调数据集和灾难性的遗忘。

接下来,我们研究在使用不同的微调数据集时,模型规模和上述灾难性遗忘容忍度之间的关系会发生什么变化。结果如下。

图中显示了在非CIFAR数据集上训练两个任务时,参数数量与ViT和ResNet的性能之间的关系。

每项任务的更详细的结果显示如下。

各项任务的图谱分布略有不同,但对于所有任务来说,较大的模型规模的灾难性遗忘较小的趋势是相似的。

预先训练的模型与从头开始训练的模型的比较。

接下来,我们进行了实验,看看在以前的实验中观察到的灾难性遗忘和模型规模之间的关系,当模型从头开始训练而不是预训练的模型时,会发生什么变化。具体来说,我们将从头开始训练的模型的准确性与预先训练的模型的准确性进行比较,预先训练的模型是有缺陷的,因此其准确性是相同的。

结果如下。

如图所示,与预先训练的模型(彩色圆圈)的结果相比,从头开始训练的模型(灰色圆圈)的灾难性遗忘更大。

此外,无论模型规模大小,这种灾难性遗忘的倾向是相似的。这表明,随着模型规模的增加,对灾难性遗忘的容忍度是预训练模型的一个特性。

请注意,只有ResNet是本实验的重点,因为ViT模型需要经过大量的预训练才能在图像分类任务中充分表现。

预训练时间、数据集大小、微调时间和灾难性遗忘

上述实验表明,预训练模型增加了对灾难性遗忘的抵抗力。我们现在研究预训练时间、数据集大小和微调期间的步骤数与灾难性遗忘的关系。

首先,在预训练期间,步骤的数量和灾难性遗忘之间的关系如下。

在右图中,预训练步骤的数量较多,用较深的颜色表示。结果表明,预训练时间越长,在下游任务中的表现和对灾难性遗忘的抵抗力就越好。

接下来,改变预训练期间的数据集大小和微调期间的步骤数的结果如下。

左图显示了训练期间数据集大小从等于1/16变化时的结果,表明灾难性遗忘的程度并没有随着数据集大小的减少而发生明显变化。例如,在1/16的数据集大小下,性能下降被限制在3%左右。

这表明,如果要抑制灾难性遗忘,预训练期间的数据集大小并不那么重要。在微调过程中改变步数的情况也显示在中间和右图中。一般来说,增加微调步骤的数量并没有显示出会增加灾难性遗忘。

代表性的重复和灾难性的遗忘

那么,一个具有大模型规模的预训练模型是如何倾向于对灾难性遗忘更有抵抗力的呢?我们现在引入轨迹重叠作为任务A和任务B中模型表征相似性的衡量标准(细节省略)。首先,我们检查通过跟踪重叠得到的类表征的相似性在预训练的模型和从头训练的模型(ResNet)之间有什么不同。结果如下。

如图所示,从头开始训练(scratch)时,类表征之间的相似度较高,而在预训练模型中得到的数值明显较低。这表明,预训练模型能够以一种相互间相似度较低(重叠度较低)的方式存储不同类别的表征。

模型比例和类间表示的平均重合度也显示如下。

在该图中,预训练模型的重叠度随着模型规模的增加而减少,而从头训练的模型则没有减少的趋势。这表明,随着模型规模的扩大,预训练模型可能会更多地减少类表征之间的重叠。

语言模型中的灾难性遗忘。

最后,语言模型的灾难性遗忘趋势的结果,但不是图像分类任务,如下所示。

实验结果表明,较大的模型规模提高了这两项任务的性能,同时抑制了灾难性遗忘的发生。然而,性能的分布与图像分类任务有很大不同,这表明图像分类和自然语言建模任务之间的缩放行为可能不同。

摘要

在本文介绍的论文中,大量的实验表明,增加预学习模型规模会导致灾难性遗忘的减少。

研究还发现,预训练的模型和从头开始训练的模型之间的区别在于,类表征之间的相似性(重叠)趋势不同,而且这种重叠随着模型规模的增加而减少。

尽管许多实验是在连续学习两个任务的情况下提出的,但原论文的附录更详细地描述了实验结果,感兴趣的人可以查阅。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们