无监督的持续学习!

持续学习 04/03/2022

三个要点
✔️ 关于无监督连续学习的研究
✔️ 建议LUMP防止灾难性的遗忘
✔️ 证明了无监督连续学习比有监督连续学习的优越性。

Representational Continuity for Unsupervised Continual Learning
written by Divyam Madaan, Jaehong Yoon, Yuanchun Li, Yunxin Liu, Sung Ju Hwang
(Submitted on 13 Oct 2021 (v1), last revised 15 Oct 2021 (this version, v2))
Comments: ICLR2022
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍。

持续学习，旨在学习一组任务而不忘记以前获得的知识，是一个解决深度学习中一个关键问题的研究领域：灾难性遗忘。然而，尽管这一领域的研究很活跃，但现有的方法却偏向于监督式连续学习（SCL）。因此，在难以获得高质量标签的现实世界中应用这些方法可能并不实际。

本文介绍的论文侧重于无监督持续学习（UCL），它涉及在一组无标签的数据上学习表征，同时避免灾难性的遗忘。

结果显示，与SCL模型相比，UCL模型具有更优越的特性，如对灾难性遗忘和分布转移更稳健。我们还提出了一种简单而有效的方法，将混搭应用于UCL，称为终身无监督混搭（LUMP）。(由于这些贡献，本文已被ICLR 2022接受（口头））。

关于设置持续学习问题。

首先，$T$的任务是$\textit{T}_{1:T}=(\textit(T)_1,...,\textit_T)$，我们考虑一个连续的学习设置，它在一个由$T$任务组成的连续数据集上学习。

对于有监督的连续学习（SCL），任务描述符$\tau \in \{1,...,T\}$，每个任务由$D_{tau}=\{(x_{i,\tau},y_{i,\tau})^{n_{\tau}}_{i=1}\}$的数据集组成，有$n_{tau}$实例。

每个输入对都是$(X_{i,tau},Y_{i,tau})/in X_{tau}×Y_{tau}$，其中$X_{tau},Y_{tau})$是一个未知数据分布。这里，将输入转化为嵌入的特征表示网络表示为$f_{\Theta}:X_{\tau}→R^D$（参数$\Theta=\{w_l\}^{l=L}_{l=1}$、$R^D$是$D$维的嵌入空间，$L$是层数）。分类器也是$h_{psi}:R^D→Y_{\tau}$。

然后，SCL的交叉熵损失由以下公式表示

另一方面，由于本文侧重于无监督连续学习（UCL），每个任务由$U_{\tau}=\{(x_{i,\tau})^{n_{\tau}}_{i=1}\}$组成。那么，目标就是为一组任务学习一个特征表示$f_{\Theta}:X_{\tau}→R^D$，保留以前任务的知识。

学习协议和评价指标

在传统的连续学习策略中，一个网络表征$f_{\Theta}:X_{\tau}→Y_{\tau}$是在一系列的任务中学习的。另一方面，在无监督的连续学习环境中，目标是学习$f_{Theta}:X_{tau}→R^D$，所以学习协议是两阶段的。

第一阶段：一系列任务 $T_{1:T}=(\textit{T},...,\textit{T}_T)$是预学习的，表征是获得的。
第二阶段：K-近邻（KNN）分类器被用来评估预训练的表征的质量。

如果在学习了任务$T_{\tau}$之后，任务$i$的测试精度为$a_{\tau,i}$，那么对于通过连续学习获得的表征，可以定义以下两个评价指标。

平均准确率：在学习任务之前完成的所有任务的平均测试准确率$A_{\tau}=\frac{1}{tau}\sum^{\tau}_{i=1}a_{tau,i}$
平均遗忘：每个任务的最佳精度和学习完成时的精度之间的平均性能下降 $F=\frac{1}{T-1}\sum^{T-1}_{i=1}max_{\tau \in\{1,...,T\}}(a_{\tau,i}-a_{T,i})$