自然画像から3D表現を学習する新しい生成モデルHoloGANが登場

先日、GANで3D構造を意識した生成を行う論文が発表されました。本稿では、自然画像からの3D表現の教師なし学習を実現する、HoloGANと呼ばれる生成型敵対的ネットワーク(GAN)が提案されています。

論文:HoloGAN: Unsupervised learning of 3D representations from natural images

自然画像からの3D表現を教師なし学習で実現

GANを用いて3D構造を意識した生成を行う新しい論文が発表されました。

ツイッターでもかなりバズってたのでご存知のかたも多いのではないでしょうか。

本稿では、自然画像からの3D表現の教師なし学習を実現する、HoloGANと呼ばれる生成型敵対的ネットワーク(GAN)が提案されています。

一般的に使用されている生成モデルは、画像を生成し、3Dの世界について仮定をするための2Dカーネルに依存しています。モデルがぼやけた画像を作成する傾向があるのはこのためです。一方、HoloGANは自然画像から3D表現を学び、この表現を現実的な方法でレンダリングすることに成功しています。姿勢ラベル、3D形状、または同じオブジェクトの複数のビューを必要とせずに、ラベルなしの2D画像だけを使用してトレーニングできます。

HoloGAN

ラベルなしの2D画像から3D表現を学習するために、HoloGANは、3D世界に関する強力な誘導バイアスをジェネレータネットワークに導入することによって、従来のGANを拡張します。

具体的には、HoloGANは、元の画像から3D畳み込みにより立体表現を得て3D表現を学習します。そして、識別器を欺くため、この3D表現をターゲットポーズに変換し、2Dフィーチャに投影し、レンダリングして最終画像を生成します。(3D表現を現実的な形で学習し、3次元空間を2次元にレンダリングする事を学習します)。ここでは、トレーニング中にランダムなポーズに変換することで、3Dの世界についてより多くのバイアスを導入します。

したがって、ビューの操作は、学習した3Dフィーチャ(3D形状は「フィーチャー」と呼ばれる単位形状の積み重ねで作成します)に3D剛体変換を直接適用することで実現できます。言い換えれば、ジェネレータによって作成された画像は、学習された3D表現から、2D画像空間への視点に依存したマッピングです。(下図)

この斬新なアーキテクチャにより、HoloGANは、自然画像から直接3D表現を学習することができます。

アイデンティティ分解

HoloGANはさらに、アイデンティティーを形状(3D機能によって制御される)と外観(2D機能によって制御される)に分解します。2つの潜在コード、z 1とz 2をサンプリングし、それらをHoloGANを通してフィードします。つまり、3D表現を学ぶために3D畳み込みを使い、2D表現を学ぶために2D畳み込みを使うことによって、HoloGANがラベルのない画像から形状を外観から直接切り離すことを学び、要素を別々に操作できることが示されています。

結果と結論

HoloGANは他の2DベースのGANモデルと同等またはそれ以上の視覚忠実度で画像が生成できました。3Dポーズ、形状、外観など、画像内の困難な要素を解消することも学習でき、また、さまざまなレベルの複雑さで、さまざまなデータセットにわたって有意義な3D表現をうまく学習できることもわかりました。以下では、HoloGANが複数の異なるデータセットに対して同一のアイデンテティを保持しながら、方位角と仰角に沿ってポーズを滑らかに変化させることができることが示されています。

しかし、HoloGANはアイデンティティからポーズを分離することに成功していますが、そのパフォーマンスはトレーニングデータセットに含まれるポーズの多様性と分布に大きく依存しています。

たとえば、CelebAおよびCatsデータセットの場合、モデルは高度を回復できません。これはほとんどの画像が目の高さで撮影されていて変動が少ないからです。

今後の研究予定としては、 HoloGANとProgressive GANのようなトレーニング技術を組み合わせて、より高解像度の画像を作成することも検討しているそうです。