オートエンコーダの進化系! 画像分割し、デフォルメ化を行う「DAEs」!

参考論文 : Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

教師なし学習モデルの一つであるオートエンコーダ(自己符号化器)は、これまで次元削減など、機械学習の研究分野でも様々研究されてきました。

今回はオートエンコーダを用いて、1つの特徴量を解きほぐす(分解する)、いわゆるDisentagled Representaion問題を解く教師なしモデル「DAEs : Learing Disentagled Representation」を紹介します。

過去の研究は、様々な変動要因を説明する潜在変数を分離・分解することに取り組んできました。例えば、アイデンティティー、イルミネーション、空間サポート、回転、平行移動、拡大縮小などの低次元変換、または年齢、性別、変動などがそれらに当たります。

本モデルの特徴として、オートエンコーダの発展型であるため、正解データ用いることなく教師なし学習よって一枚の画像の特徴へ、外見と形に分解することができます。例えば手書き数字の「5」を認識させた場合、数字そのものの外見「5」と手書きのクセの2つに分割することを教師なしで行うことが可能となります。

 

モデル概要

 

 

本手法を用いて、入力された顔画像の”形”と”テクスチャ”を変数として、学習したより低次元の潜在空間の中で解きほぐすことができます。

本技術は、ディープニューラルネットワークを用いており、エンコーダネットワークにおいて入力画像から2本の潜在ベクトル(“形”と”テクスチャ”)に分割・変換します。それら2本の”形”と”テクスチャ”を表す潜在ベクトルを、デコーダネットワークにおいて生成画像として外見はそのままに、テクスチャをデフォルメ化し出力します。各デコーダネットワークは”外見そのまま”と”デフォルメ化されたテクスチャ”を出力するための関数を学習していきます。最後に、Spatial Warpingにおいてそれぞれの画像を合成します。

この一連の流れを通じ、モデルは解きほぐされたインプット画像を再構築しながら、教師なし形式でテクスチャの特徴量を変換(デフォルメ化)することが可能になります。

また、エンコーダは一枚の顔の画像を”形”と”テクスチャ”に分解した際、それらの交差エントロピー関数の最適化を学習していきます。さらに、本研究のエンコーダは外見をさらに”影の濃淡”と”反射率”に分割することも可能です。

 

結果

上は、オートエンコーダ(自己符号化器)のテストで用いられる最も有名なデータセットの一つ、MNISTを元にDAEsを用いて再構築を行なった生成画像になります。

(iii),(iv)からわかるように、外見(3という数字)と形(手書きによるクセ)の分割を学習できていることがわかります。また、それらを合成した(ii)の再生画像は入力画像と比較し、非常に再現性の高いものとなっています。

教師なし学習において、すなはち正解データを入力することなく、外見と形の特徴を抽出し分割することに成功しています。

また、上画像は、”外見”をさらに”影の濃淡”と”反射率”の2つに分割した結果を表しています。これも教師なし学習によるもので、正解データを付与することなく上記の分割が可能になります。

終わりに

本稿では、一枚の顔画像を”外見”と”形”に潜在表現空間内で解きほぐす、深層オートエンコーダを紹介しました。教師なしモデル「DAEs : Learing Disentagled Representation」では、教師なし学習で特徴を抽出し、画像を分割することができます。さらに、顔画像や文字といったシンプルな対象だけでなく、3Dモデルや風景画像においても応用させることで、正解ラベルを付与することなく、画像の分割・操作が可能になるかもしれません。