使用深度生成模型的无监督元学习的潜力[ICLR2021]
三个要点
✔️在元任务中使用潜在空间的线性插值生成人工标记的数据
✔️提出了通过线性插值生成数据的三种方法(LASIUM-N、LASIUM-RO和LASIUM-OC)。
✔️超越了以前的无监督元学习方法,并接近有监督元学习的性能。
Unsupervised Meta-Learning through Latent-Space Interpolation in Generative Models
written by Siavash Khodadadeh, Sharare Zehtabian, Saeed Vahidian, Weijia Wang, Bill Lin, Ladislau Bölöni
(Submitted on 18 Jun 2020)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
什么是元学习(meta-learning)?
人们可以利用他们过去的经验来学习新事物。例如,如果你知道如何下棋,你将能够轻松地学习国际象棋。
元学习是将这种"学习如何学习 "的学习方法引入机器学习。虽然大多数神经网络学习是从没有先验知识开始的,但元学习通过解决与目标任务不同的相关任务,有效地提高了目标任务的准确性。
与元学习类似的方法是微调。与元学习不同,转移学习并不能保证目标任务的性能提高,因为在相关任务中获得的网络参数被用作解决目标任务的初始值。
无人监督与有人监督之分
元学习大致可分为 "无监督 "和 "有监督 "方法。无监督元学习使用由聚类或数据扩展产生的伪标签数据集,而有监督的元学习则使用明确标有相关任务的数据集。另一方面,无监督的元学习使用由聚类或数据扩展产生的伪标签数据集。
尽管无监督元学习可以用于训练那些没有现成标签的领域,并且在数据集大小上比有监督元学习有优势,但其性能通常比有监督元学习差一些。
迈向无监督元学习,与有监督元学习相抗衡
无监督元学习不如有监督元学习的原因之一是伪标签的不精确性。在没有教师标签的情况下,聚类和其他方法分配的标签的准确性直接关系到性能。
在本文中,我们通过在用于学习相关任务的数据中增加一个新的数据集来解决这个问题。使用从深度生成模型的潜在空间采样的数据我们通过以下方式解决这个问题
使用深度生成模型生成元学习任务
在这一节中,我们描述了本论文提出的方法,LASIUM(LAtent Space Interpolation Unsupervised Meta-learning)。
无监督元学习的困难在于如何从一个无标签的数据集中生成一个任务。如果任务是一个N类分类问题,那么对于每个类别,我们需要有K个样本用于训练和验证。为了获得这些样本,传统方法要么直接从数据集中取样,要么进行数据扩展。另一方面,这里介绍的方法允许用不包括在数据集中的数据进行训练,方法是用生成数据的模型训练神经网络,然后进行采样。
下图说明了使用GAN生成元学习任务(3类分类)的流程。首先,使用无标签的数据集训练一个深度生成模型。接下来,我们对属于不同类别的数据进行采样。这相当于从潜在空间中抽出$z_1,z_2,z_3$,并使用生成器将它们映射到数据空间。(a)此外,通过同样的程序获得与刚刚抽样的数据属于同一类别的数据。(图中的$z'$)(b)最后,将以上述方式获得的数据分为两部分,一部分用于训练,另一部分用于评估,以产生一个元任务。(c)
以下各节更详细地解释每个步骤。
(1) 深度生成模型的训练
最初,我们用生成模型$p(x)$训练一个神经网络,用于未标记的数据集。MSGAN和PGGAN是VAE和GAN的衍生物,已被选为此类深度学习模型。
MSGAN是一个为模式衰减增加正则化项的模型,而PGGAN是一个在GAN学习过程中一步步增加神经网络层的模型。
(2) 对不同类别的数据进行抽样
为了准备N类分类问题所需的(N x K)数据,每一类都要采样一个起始数据(锚);在GAN中,通过拒绝采样得到潜空间中成对距离大于或等于阈值$epsilon$的潜向量$z$。在GAN中,潜伏向量$z$是通过拒绝采样获得的。在VAE中,我们使用编码器对数据集进行采样,以便在映射到潜在空间时,配对距离大于或等于阈值$epsilon$。
(3) 同类数据的抽样
在对锚点向量进行采样后,我们继续对接近每个锚点的潜在表示的数据进行采样。这使我们能够获得我们认为与每个锚属于同一类别的数据。本文提出了三种方法,它们在潜空间中使用线性插值。
LASIUM-N
它是一种通过向锚点矢量添加高斯噪声,然后将其映射到数据空间来获得同质数据的方法。
LASIUM-RO
随机抽取与锚定向量相距超过$\epsilon$的异类向量$\mathbb{v}$,并通过锚定向量$\mathbb{z}$和异类向量$\mathbb{v}$之间的线性内插计算同类向量$\mathbb{z'}$的计算。 然后,该方法将潜在空间映射到数据空间,以获得相同的类数据。
在线性插值公式$\mathbb{z'} = \mathbb{z} + \alpha \times (\mathbb{v - z})$中,可以通过改变超参数$\alpha$来调整与锚点向量的接近程度。
LASIUM-OC
该方法通过对一个类的锚向量和不同类的锚向量进行线性插值计算出相同的类向量,并通过对数据空间的映射获得相同的类数据。 该方法与LASIUM-RO相同,都是通过不同类向量之间的线性插值获得相同的类数据,但不同的是,不同的类数据是随机选择的,或者是从锚点选择的。
下图说明了同一类数据的抽样方法的不同。 彩色虚线代表不同等级,LASIUM-RO和LASIUM-OC中的灰色虚线代表线性插值中的向量$(\mathbb{v - z})$。
数据集
上述算法的性能是在四个不同的几率学习基准上检查的。在一个测试数据集上,我们通过计算该模型在上述深度生成模型生成的元学习任务上的准确性来评估该模型。在本博客中,我们将只处理结果2和4。
- Omniglot:手写识别数据集的5级分类
- CelebA:人名识别数据集的5级分类
- CelebA属性:一个用面部特征注释的二进制标签的数据集。
- mini-ImageNet:包含从ImageNet ILSVRC-2012中随机选择的100个类的数据集。
实验结果
名人A
下表显示了CelebA在人物识别任务中的评估结果(5类)。每个类别使用的训练样本数为{1,5,15},在表中表示为$K^{(tr)}$。评估的样本数固定为15。表中的数字代表了评估中抽样的1000个任务的平均性能,有95%的置信区间。
从表中可以看出,虽然提出的方法不如有监督的元学习,但它比无监督的元学习比较方法CACTUs和UMTRA更准确。可以看出,当训练数据样本数量较少时,所提出的方法有一个小的性能下降。
迷你图像网
下表显示了对miniImageNet的5类分类任务的评估结果。每个类别使用的训练样本数量为{1,5,20,50},在表中表示为$K^{(tr)}$。评估的样本数固定为15。表中的数字代表了评估中抽样的1000个任务的平均性能,有95%的置信区间。
上排的八种算法是使用无监督学习获得的嵌入表征进行评估的,中间两排的九种算法是针对无监督元学习进行评估的,下排的三种算法是针对转移学习和监督元学习进行评估的。
从上表可以看出,所提出的带有无监督元学习的方法比单纯的无监督方法记录了更高的正确答案比例,尽管其准确率低于有监督学习。此外,所提出的方法在无监督元学习方法中的准确率始终排在前三位,这表明当训练样本数量较少时,准确率的损失很小。
总结
正如你所看到的,LASIUM更适合于Few-Shot学习的设置,因为即使每个类别的训练数据很少,它也不容易失去准确性。通过首先学习数据的生成模型,有可能对各种数据进行采样,而无需复杂的数据扩展。
我们将密切关注元学习研究的未来发展!
与本文相关的类别