[MGSER-SAM]解决连续学习中灾难性遗忘问题的方法

持续学习 01/11/2024

三个要点
✔️ 为解决持续学习中的 "灾难性遗忘 "问题而提出的 MGSER-SAM。
✔️ 融合锐度认知优化（SAM）和经验重放（ER）的新算法。
✔️ 利用软对数和记忆梯度方向一致性提高模型泛化能力和学习性能的方法演示。

MGSER-SAM: Memory-Guided Soft Experience Replay with Sharpness-Aware Optimization for Enhanced Continual Learning
written by Xingyu Li, Bo Tang
(Submitted on 15 May 2024)
Comments: 8 pages, 5 figures
Subjects: Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

在连续学习（CL）中，"灾难性遗忘 "问题是一个严重的问题，即在学习新任务时，先前学习的信息会丢失。本研究提出了一种名为 MGSER-SAM 的基于记忆重放的新型算法来解决这一问题。首先，整合了 SAM 优化器，并使其适用于现有的经验重放框架，如 ER 和 DER++。其次，它战略性地结合了软对数和记忆梯度方向对齐，以解决持续学习过程中当前任务与先前存储记忆之间的权重扰动方向冲突。这使得 MGSER-SAM 能够同时有效地最小化各种训练损失项。实验结果表明，MGSER-SAM 在所有 CL 场景中的表现都优于现有基线。

拟议方法（MGSER-SAM）

ER-SAM（带锐度最小化功能的体验回放）

ER-SAM 是 MGSER-SAM 的基础，是一种将 SAM 优化器集成到经验重放 (ER) 中的方法，通过使损失函数的几何形状扁平化来提高模型的通用性 SAM 使模型参数空间邻域中的最坏损失最小化，从而使模型扁平化改进

将 SAM 纳入 ER 可优化以下方面的损失函数

其中 $\rho $ 是控制邻域半径的常数，$\delta$ 是使最坏情况损失最大化的权重扰动。模型更新如下

其中，$\ g_{ER-SAM} $ 是扰动后损失函数的梯度。

MGSER-SAM

MGSER-SAM 的设计旨在克服 ER-SAM 的局限性，解决当前任务与记忆权重扰动方向之间的冲突。具体来说，它引入了两个正则化项

软对数：使用模型的输出对数来替代当前任务的损失和记忆损失项。这确保了在学习新任务时，模型的更新与上一个任务的 logit 保持一致。具体来说，我们对以下损失函数进行了优化。

其中，$\ z' $ 是与内存数据 $\ x' $ 相对应的软逻辑。

2. 记忆梯度方向的一致性：整合 SAM 优化器和记忆预演技术，引导记忆梯度方向，使学习过程更加平衡。

MGSER-SAM 模型的最终更新如下。

试验

基准

本研究针对三种持续学习场景（任务增量学习、类增量学习和领域增量学习）使用了多个基准。这些基准的详情如下。

S・MNIST: 任务增量学习 (task.IL) 和类增量学习 (class.IL) S・CIFAR10: 任务增量学习 (task.IL) 和类增量学习 (class.IL) S・CIFAR100: 任务增量学习 (task.IL) 和类增量学习 (

S-TinyImageNet：任务增量学习（task.IL）和类增量学习（class.IL）P-MNIST：域增量学习（domain.ILR-MNIST：域增量学习（domain.IL）

底线

为了评估拟议方法 MGSER/SAM 的性能，将其与以下具有代表性的基线进行了比较

LWF（无遗忘学习）- PNN（渐进神经网络）- SI（突触智能）- oEWC（在线弹性权重巩固）- ER (
经验回放）・ DER++ （黑暗经验回放）

此外，为了评估 SAM 优化器的适应性，还将其与 ER-SAM 和 DER++-SAM 进行了比较。

估值指数

为确保公平比较，所有模型都使用相同的超参数和计算资源进行训练。此外，还使用了以下两个评价指标

1. 平均准确率(ACC)：所有任务训练后的平均测试准确率 2. 遗忘率 (Forget)：上一个任务的最高测试准确率与最后测试准确率之差

结果

性能分析

表 II 显示了每种方法在 S・MNIST、S・CIFAR10、S・CIFAR100、S・TinyImageNet、P・MNIST 和 R・MNIST 基准上的性能。结果表明，所提出的方法 MGSER-SAM 在所有基准上都取得了最佳性能。其中，S 和 MNIST 的测试准确率达到 93.29%，分别比 ER 和 DER++ 高出 4.2% 和 17.6%。

文化遗产保护过程中的调查

图 3 显示了在 CL 过程中 S・MNIST、S・CIFAR10 和 S・CIFAR100 的第一个任务测试精度的变化；MGSER・SAM 显示了每个任务训练后第一个任务测试精度的最高值。例如，S-CIFAR10 显示 MGSER/SAM 的首次任务准确率下降了 24.05%，比 ER 和 DER++ 的损失分别低 54.92% 和 12.06%。

班级渐进学习期间所有任务的 ACC

图 4 显示了 P・MNIST 和 S・TinyImageNet 中所有任务的平均准确率（ACC）的变化，可以看出 MGSER・SAM 在学习每个任务后都达到了最高的 ACC。例如，在 P/MNIST 中，MGSER/SAM 在 20 个任务训练后的 ACC 为 89.92%，高于 ER 在第一个任务训练后的 ACC。

内存容量的影响

图 5 显示了在不同内存缓冲区大小（M ∈ [400, 2000]）下，每个基准的类增量学习平均准确率 (ACC)。结果表明，MGSER-SAM 始终表现最佳。结果还显示，随着内存缓冲区大小的增加，所有比较方法的性能都有所提高。

结论

在本文中，我们提出了一种新算法 MGSER-SAM，它将锐度最小化（SAM）集成到经验重放（ER）框架中，以解决连续学习（CL）中的 "灾难性遗忘 "问题。MGSER-SAM 是一种新型算法，它整合了任务软对数和记忆梯度方向一致性之间的权重扰动方向冲突，并在多个基准测试中实现了高达 24.4% 的准确率提升和最低遗忘率。

未来的工作有望通过优化超参数、应用于其他 CL 场景和数据集、开发降低计算成本的方法、在实时应用和边缘设备中实施以及加强理论基础，进一步提高 MGSER-SAM 的实用性。

与本文相关的类别

Sasayama

赶上最新的AI论文

[MGSER-SAM]解决连续学习中灾难性遗忘问题的方法

概述

相关研究

持续学习的三种情景

三种持续学习方法