Disentangleな表現学習の新手法：Progressive VLAEを解説！

VAE 2020年03月22日

3つの要点

✔️ Disentangledな表現学習にProgressive Learningの有効性を示した
✔️ 提案したpro-VLAEは実験で定量的にも定性的にも多様な生成要因のもつれを解くことに成功
✔️ Disentanglementの評価指標であるMIGを補完するMIG-supを提案した

Progressive Learning and Disentanglement of Hierarchical Representations
written by Zhiyuan Li, Jaideep Vitthal Murkute, Prashnna Kumar Gyawali, Linwei Wang
(Submitted on 24 Feb 2020)
Comments: accepted by ICLR 2020 Conference
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (stat.ML)

はじめに

VAEやGANなどに代表される深層生成モデルは、高精度な画像を生成する目的に加え、データから優れた表現を獲得する手法としても期待されています。

表現学習とは、Wikipediaによれば次のように説明されています。

In machine learning, feature learning or representation learning^[1] is a set of techniques that allows a system to automatically discover the representations needed for feature detection or classification from raw data. This replaces manual feature engineering and allows a machine to both learn the features and use them to perform a specific task.

訳: 機械学習では、特徴学習または表現学習は、生データから特徴の検出または分類に必要な表現をシステムが自動的に発見できるようにする一連の手法です。これは人手による特徴エンジニアリングに代わるものであり、機械によって特徴を学習し、それらを使用して特定のタスクを行えるようにします。

ここで言うような、元データから潜在表現を獲得するには、画像を扱う分野においては、画像認識や物体検出、画像生成などの何らかの予測問題を解く過程で得る方法がありますが、VAE等の生成モデルではラベル付きの教師データなしで圧縮したデータ表現を得られるという利点があります。オリジナルのVAEは、下式に従って学習が行われます。

$$L(x, z) = E_q(z|x)[\log p(x|z)]-D_{KL}[q(z|x)||p(z)]$$

VAEでは、教師なしであくまで再構成誤差を最小にするように学習が行われるため、得られる表現の解釈が難しく、他のタスクへの転用もしにくくなります。
また、VAEではニューラルネットの層を単に深くして表現能力を高めることも難しいという問題もありました。

これらの問題に対し、最近の研究では教師なしでも優れた表現を得る方法として、表現のDisentangle化や階層学習などが注目されています。

この論文では、より多様な生成要因のDisentanglingを目指し、階層表現学習におけるDisentangling能力改善やネットワークのcapacity拡大の点で、Progressive Learningによる「starting small」な学習戦略が、有効に機能するのではないかと仮定しその調査を行なっています。

続きを読むには

(10395文字画像7枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または