深層生成モデルを用いた教師なしメタ学習の可能性【ICLR2021】

Meta-Learning 2021年09月29日

3つの要点
✔️ 潜在空間における線形補間を用いてメタタスクにおける人工ラベル付きデータを生成
✔️ 線形補間によるデータ生成に関して3つの手法(LASIUM-N, LASIUM-RO, LASIUM-OC)を提案
✔️ 教師なしメタ学習の従来手法を上回る性能を記録し、教師ありメタ学習の性能に近づいた

Unsupervised Meta-Learning through Latent-Space Interpolation in Generative Models
written by Siavash Khodadadeh, Sharare Zehtabian, Saeed Vahidian, Weijia Wang, Bill Lin, Ladislau Bölöni
(Submitted on 18 Jun 2020)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

メタ学習とは

人は新しいことを学ぶ際に過去の経験を利用できます。例えば、将棋の遊び方を知っているひとはチェスを簡単に習得することができるでしょう。

このような「学び方を学ぶ」学習方法を機械学習に導入したのがメタ学習です。ニューラルネットワークの学習は本来何も事前知識のない状態からスタートすることがほとんどですが、メタ学習では目的タスクとは異なる関連タスクを解くことで目的タスクの精度を効率的に向上させます。

メタ学習と似たアプローチとして転移学習(ファインチューニング)があります。転移学習では関連タスクで得られたネットワークパラメータを目的タスクを解く際の初期値として用いるため、メタ学習とは違って目的タスクでの性能向上は保証されていません。

教師なし v.s. 教師あり

メタ学習は「教師なし」と「教師あり」の手法に大別されます。教師ありメタ学習では関連タスクに明示的にラベル付けされたデータセットが用いられます。一方で、教師なしメタ学習ではクラスタリングやデータ拡張によって生成された疑似ラベル付きデータセットが用いられます。

教師なしメタ学習はラベルが入手困難な分野においても学習が可能であり、教師ありメタ学習よりもデータセットサイズにおけるメリットを享受できるものの、教師ありメタ学習と比較して性能が劣ることがほとんどです。

教師ありに匹敵する教師なしメタ学習を目指して

教師なしメタ学習が教師ありメタ学習に劣る原因の一つとして疑似ラベルの精度の低さが挙げられます。教師ラベルが存在しない設定ではクラスタリングなどにより付与されるラベルの精度が性能に直結します。

今回ご紹介する論文では関連タスクの学習に用いるデータに深層生成モデルの潜在空間からサンプリングされたデータを用いることでこの問題に対処しています。

深層生成モデルを用いたメタ学習タスクの生成

この節では本論文の提案手法であるLASIUM(LAtent Space Interpolation Unsupervised Meta-learning)について説明します。

教師なしメタ学習における難しさはラベルの付いていないデータセットからどのようにしてタスクを生成するかにあります。タスクをNクラス分類問題とすると、各クラスに関してK個のサンプルを訓練用・検証用に用意する必要があります。これらのサンプルを得るために、従来の手法ではデータセットから直接サンプリングするかデータ拡張を行っていました。一方で、今回紹介する手法ではデータの生成モデルをニューラルネットワークに学習させた後にサンプリングを行うことによりデータセットに含まれていないデータを用いた学習が可能となっています。

以下の図はGANを用いたメタ学習タスク（3クラス分類）の生成の流れを示したものです。はじめに、ラベルなしデータセットを用いて深層生成モデルを学習させます。次に、異なるクラスに属するデータをサンプリングします。これは$z_1,z_2,z_3$を潜在空間からサンプリングし、Generatorを用いてデータ空間へマッピングすることに相当します。(a)　さらに、先ほどサンプリングされたものと同じクラスに属するデータを同様の手順で得ます。(図中$z'$)（b）最後に、以上のようにして得られたデータを訓練用と評価用に分割しメタタスクを生成します。（c）

下の節では各ステップに関して詳細に解説します。

(1) 深層生成モデルの訓練

はじめに、ラベルなしデータセットの生成モデル$p(x)$をニューラルネットワークに学習させます。このような深層学習モデルとしてVAEとGANの派生形であるMSGANとPGGANが選択されています。

MSGANはモード崩壊に対する正則化項を加えたモデルであり、PGGANはGANの学習進度に合わせて段階的にニューラルネットワーク層を追加するモデルです。

(2) 異クラスデータのサンプリング

Nクラス分類問題に必要な(N x K)個のデータを用意するにあたり、各クラスごとに一つずつ起点となるデータ（アンカー）をサンプリングします。GANにおいては潜在空間におけるペアワイズ距離が閾値$\epsilon$以上であるような潜在ベクトル$z$を棄却サンプリングにより得ます。また、VAEにおいてはエンコーダを利用して潜在空間へマッピングした際にペアワイズ距離が閾値$\epsilon$以上であるようなデータをデータセットからサンプリングしてきます。

(3) 同クラスデータのサンプリング

アンカーベクトルのサンプリングを行った後は、各アンカーと近い潜在表現を持つデータをサンプリングしてきます。これによって各アンカーと同じクラスに属すると思われるデータを得ることができます。本論文で提案されている手法は3つあり、潜在空間における線形補間が用いられています。

・LASIUM-N

アンカーベクトルにガウシアンノイズを付加してからデータ空間にマッピングすることで同クラスデータを得る手法です。

・LASIUM-RO

アンカーベクトルから$\epsilon$以上離れた異クラスベクトル$\mathbb{v}$をランダムにサンプリングし、アンカーベクトル$\mathbb{z}$と異クラスベクトル$\mathbb{v}$との間の線形補間により同クラスベクトル$\mathbb{z'}$を計算します。その後、潜在空間からデータ空間へマッピングすることで同クラスデータを得る手法です。

線形補間の式$\mathbb{z'} = \mathbb{z} + \alpha \times (\mathbb{v - z})$において、ハイパーパラメータである$\alpha$を変化させることでアンカーベクトルとの近さを調節することができます。

・LASIUM-OC

あるクラスのアンカーベクトルと異なるクラスのアンカーベクトルとの間の線形補間により同クラスベクトルを計算し、データ空間へのマッピングによって同クラスデータを得る手法です。異クラスベクトルとの線形補間によって同クラスデータを得る点がLASIUM-ROと同じですが、異クラスデータをランダムに選択するかアンカーから選択するかという点で異なっています。

下の図は同クラスデータのサンプリング方法の違いを図解したものです。色の付いた点線は各クラスを示しており、LASIUM-ROとLASIUM-OCにおけるグレーの点線は線形補間におけるベクトル$(\mathbb{v - z})$を示しています。

データセット

上記アルゴリズムの性能を4種類のfew-shot学習ベンチマークで確認しました。テストデータセットにおいて、上述した深層生成モデルにより生成されたメタ学習タスクにおける精度を計算することでモデルを評価しました。このブログでは2と4の結果のみ扱います。

Omniglot：手書き文字認識データセットにおける５クラス分類
CelebA：人物認識データセットにおける５クラス分類
CelebA attributes：顔の特徴に関してアノテーションがつけられたバイナリラベルのデータセット
mini-ImageNet：ImageNet ILSVRC-2012からランダムに選択された100個のクラスを含むデータセット

実験結果

CelebA

CelebAにおいて人物認識を行うタスク（5クラス分類）に関して評価した結果が下の表です。一つのクラスにつき用いられる訓練用サンプルの数は{1,5,15}のいずれかであり、表中の$K^{(tr)}$として表記されています。また、評価用サンプルの数は15で固定となっています。表中の数値は評価用としてサンプリングされた1000個のタスクにおける性能を平均したものであり、95%信頼区間が表記されています。

table 2

この表からわかるように、提案手法は教師ありメタ学習には劣るものの、教師なしメタ学習の比較手法であるCACTUsやUMTRAよりも高い精度を出しています。提案手法は訓練データのサンプル数が小さい場合での性能の下げ幅が小さいことがわかります。

miniImageNet

miniImageNetにおいて5クラス分類を行うタスクに関して評価した結果が下の表です。一つのクラスにつき用いられる訓練用サンプルの数は{1,5,20,50}のいずれかであり、表中の$K^{(tr)}$として表記されています。また、評価用サンプルの数は15で固定となっています。表中の数値は評価用としてサンプリングされた1000個のタスクにおける性能を平均したものであり、95%信頼区間が表記されています。

上段の下8個のアルゴリズムは教師なし学習によって得られた埋め込み表現を用いた評価、中央二段の9個のアルゴリズムは教師なしメタ学習の評価、下段の3個のアルゴリズムは転移学習および教師ありメタ学習の評価となっています。

table4 larger

上の表を見るとわかるように、教師なしメタ学習を用いた手法では教師あり学習よりも精度が劣るものの、単なる教師なし手法よりも高い正答率を記録していることがわかります。また、提案手法は教師なしメタ学習手法において常にtop3の精度を誇っており、訓練サンプル数が少ない場合の精度低下の幅が小さいことがうかがえます。

おわりに

いかがだったでしょうか。LASIUMは各クラスにおける訓練データが少ない場合にでも精度が落ちにくく、よりfew-shot学習の設定にかなった手法だと言えるでしょう。はじめにデータの生成モデルを学習することによって複雑なデータ拡張などを行わなくとも多様なデータをサンプリングできるのは効果的だと思います。

今後のメタ学習研究の進展に注目です！