思い描いた画像を簡単に生成！セグメンテーションを写実的な画像に変換するGauGANとは

論文 2019年05月10日

セグメンテーション画像からリアルな画像を生成する手法としては、pix2pixなどがこれまでのスタンダードでした。今回紹介するGauGAN(2019年3月発表)では、SPADEと呼ばれる領域適応型のバッチ正規化の方法を提案し、生成画像がよりリアルになっただけでなく、スタイル画像による調節も可能になりました。

論文: Semantic Image Synthesis with Spatially-Adaptive Normalization

近年、GAN(generative adversarial network; 敵対的生成ネットワーク)に代表される画像生成技術の目覚ましい発展により、本物と見分けがつかないほど自然で高解像度の人の顔や動物の画像が生成できるようになりました。
こちらは左がStyleGAN、右がBigGANによって生成された画像です。

これらのモデルにおいて、得られる画像を人が操作できる「操作性」はカテゴリ指定や2枚の画像のミックスなどに限定されていました。しかし、実際の広告やメディア、アートのようなコンテンツ制作においては「自分がイメージした画像」が実際に生成できることが望ましいケースが多いです。
そのような研究としてはこれまでpix2pixが知られていました。
以下が生成結果の一例です。”Labels to Street Scene / Facade”が、セグメンテーション画像からリアルな画像を生成しています。

本論文では、生成画像の品質を大幅に向上したモデル(GauGANと名付けられました)が提案されており、画像認識のトップ会議であるCVPR 2019にも口頭発表で採択されています。

次のデモ動画では、自分で描いたセグメンテーション画像(左)から対応するリアルな画像(右)を生成しています。

リアルな画像生成の仕組み

GauGANがリアルな画像を生成できるのは、SPADEという新しいバッチ正規化手法によるところが大きいです。このSPADEについて、もう少し詳しく説明します。

通常のバッチ正規化とその問題点

最初に、通常のバッチ正規化(batch normalization)について復習しておきましょう。
バッチ正規化は、特徴マップを(バッチサイズB,チャネル数C,縦H,横W)にまとめたテンソルに次のような操作を加えます。

(バッチ,縦,横)に関する平均μと標準偏差σで正規化
学習されるパラメータであるスケールγとバイアスβでチャネルごとに線形変換

γとβは長さCのベクトルです。式で書くとこのようになります。

一言でまとめると、チャネル内での平均がβ、標準偏差がγになるように調節しています。このようにして、各層に入力されるデータの分布の変動を抑えています。
バッチ正規化は最近のCNNには不可欠と言っていいほど採用されていますが、セグメンテーション画像を入力するとこの過程でラベルの情報が落とされてしまいます。
この問題を緩和するために考案されたのが、次で説明するSPADEです。