BigGANを超えた!DeepMind、史上最強の非GANジェネレータVQ-VAE-2を提案

【論文】Generating Diverse High-Fidelity Images

BigGAN は「歴史上最強のGANジェネレータ」として知られています。

最大512×512ピクセルの高解像度画像を条件付きで生成するモデルで、なんと1000カテゴリーの画像を生成出来ます。従来のスコアを大幅に更新し話題になりました。

現在GANは画像生成において向かう所敵なしといった感じですが、本当にGANは画像を生成するための最良の方法なのでしょうか?

DeepMindが最近発表した論文では、VQ-VAEを使用した画像生成に取り組んでいます。現在の最良のGANモデル(BigGAN-deep)に匹敵する画像を生成することに成功しました。さらに画像の多様性がBigGAN-deepより優れていることが分かりました。

「最強の非GANジェネレータ」

GANは生成器と弁別器を使用し、前者はランダムノイズを画像空間にマッピングすることによって画像を生成し、後者はジェネレータによって生成された画像が正しいかどうかを識別します。BigGANは、高品質で高精細な画像を生成できますが、生成されるサンプルは、真の分布における多様性を完全に捉えることはできないことで知られています。

提案された、VQ-VAE-2はGANを使用せずにHD大画像を生成できます。画像圧縮の概念を使用してピクセル空間を量子化された離散空間にマッピングし、オートエンコーダの構造によって高精細の大きな画像を生成する方法を学習します。さらに、BigGANには見られなかった様々な多様性を持ち合わせています。

以下ではBigGANが明示的に取り込むのが困難な、年齢、性別、肌の色、髪の色などの特性が反映されており、データセットの表現の多様性を捉えていることがわかります。

BigGAN(右)と比較すると、VQ-VAE2(左)はさまざまなオブジェクトや動物を生成するだけでなく、さまざまな視点やさまざまな姿勢のバージョンを生成していることが分かります。

BigGANでは単一な金魚の外観も‥

VQ-VAE2では、非常に多くの形を生成できています。

VQ-VAE-2

VQ-VAE-2はVQ-VAEの進化系です。

VQ-VAEでは中間表現として、ベクトル量子化を用いて情報を離散的な潜在空間に圧縮していました。

VQ-VAE-2はオリジナルのVQ-VAEと同様にシンプルかつ軽量に保たれていますが、さらに解像度を上げるために階層型の潜在マップを使用しています。潜在表現を異なるスケール毎に階層的に学習します。

中間表現は元の画像よりも30倍ほど以上小さくなりますが、デコードして非常にリアルな画像に再構築することができます。これらの離散表現の事前分布をPixelCNN(自己注意機構を持つ)を用いて学習しサンプリングします。

モデル


VQ-VAE-2は、観測された情報を離散的な潜在変数のセットにマッピングするエンコーダとこれらの離散変数の情報を再構築するデコーダで構成されています。

システムは大きく2段階の過程に分かれており、第1段階では、階層構造を利用し、局所的(テクスチャ)な情報との大域的な情報を分けてモデリングします。ローカルの詳細を表現するボトム潜在マップとグローバル情報をモデル化するトップ潜在マップを持ち、それぞれに基づいて調整されます。

次にデコーダは、この2つの潜在マップを用いて、局所的および大域的な情報を含んだ、元の図と同じ大きさの再構成図を作成します。階層内の各レベルを個別にピクセルに依存させることにより、デコーダでの再構成エラーを減らすことができます。

第二段階では、オートエンコーダ付きのPixelCNNを用いてこの潜在変数の事前分布を学習し、サンプリングします。

実験

これら画像はImageNet 256×256で訓練されたモデルが生成した画像です。

品質は高く、さらに多様性の観点から、BigGAN-deep(現在のSOTA GANモデル)を超える画像を生成しています。以下の比較からわかるように、VQ-VAEはGANの忠実度に匹敵するサンプルを生成していますが同時に様々な多様性も持ち合わせています。

FFHQ−1024×1024データセット上で訓練して得られた代表的なサンプルです。データセットの低密度モード(例えば、緑色の髪)をカバーしながら、対称的な顔特徴のマッチングなどを尊重する現実的な顔を生成していることが分かります。

 

この記事をシェアする