最新AI論文をキャッチアップ

思い描いた画像を簡単に生成!セグメンテーションを写実的な画像に変換するGauGANとは

思い描いた画像を簡単に生成!セグメンテーションを写実的な画像に変換するGauGANとは

論文

セグメンテーション画像からリアルな画像を生成する手法としては、pix2pixなどがこれまでのスタンダードでした。今回紹介するGauGAN(2019年3月発表)では、SPADEと呼ばれる領域適応型のバッチ正規化の方法を提案し、生成画像がよりリアルになっただけでなく、スタイル画像による調節も可能になりました。

論文: Semantic Image Synthesis with Spatially-Adaptive Normalization

近年、GAN(generative adversarial network; 敵対的生成ネットワーク)に代表される画像生成技術の目覚ましい発展により、本物と見分けがつかないほど自然で高解像度の人の顔や動物の画像が生成できるようになりました。
こちらは左がStyleGAN、右がBigGANによって生成された画像です。

これらのモデルにおいて、得られる画像を人が操作できる「操作性」はカテゴリ指定や2枚の画像のミックスなどに限定されていました。しかし、実際の広告やメディア、アートのようなコンテンツ制作においては「自分がイメージした画像」が実際に生成できることが望ましいケースが多いです。
そのような研究としてはこれまでpix2pixが知られていました。
以下が生成結果の一例です。”Labels to Street Scene / Facade”が、セグメンテーション画像からリアルな画像を生成しています。

本論文では、生成画像の品質を大幅に向上したモデル(GauGANと名付けられました)が提案されており、画像認識のトップ会議であるCVPR 2019にも口頭発表で採択されています。

次のデモ動画では、自分で描いたセグメンテーション画像(左)から対応するリアルな画像(右)を生成しています。

 

リアルな画像生成の仕組み

GauGANがリアルな画像を生成できるのは、SPADEという新しいバッチ正規化手法によるところが大きいです。このSPADEについて、もう少し詳しく説明します。

通常のバッチ正規化とその問題点

最初に、通常のバッチ正規化(batch normalization)について復習しておきましょう。
バッチ正規化は、特徴マップを(バッチサイズB,チャネル数C,縦H,横W)にまとめたテンソルに次のような操作を加えます。

  1. (バッチ,縦,横)に関する平均μと標準偏差σで正規化
  2. 学習されるパラメータであるスケールγとバイアスβでチャネルごとに線形変換

γとβは長さCのベクトルです。式で書くとこのようになります。

一言でまとめると、チャネル内での平均がβ、標準偏差がγになるように調節しています。このようにして、各層に入力されるデータの分布の変動を抑えています。
バッチ正規化は最近のCNNには不可欠と言っていいほど採用されていますが、セグメンテーション画像を入力するとこの過程でラベルの情報が落とされてしまいます。
この問題を緩和するために考案されたのが、次で説明するSPADEです。

Spatially-Adaptive Denormalization

SPADE (spatially-adaptive (de)normalization; 空間適応正規化)は、図のようにスケールγとバイアスβをセグメンテーション画像の畳込みで構成し、空間方向に適応的なテンソルとしたものです。

従来手法に対するSPADEの優位性は、図のように単調なセグメンテーション画像の例を考えるとわかります。pix2pix(通常のバッチ正規化)では単調な入力に同じ値でスケーリングとバイアスをかけるため単調な出力となりますが、SPADEでは出力に多様性を出すことができます。

本論文で使われたアーキテクチャは次のようにSPADE残差ブロックを重ねたものです。SPADEで毎回セグメンテーションの情報を取り込んでいるため、pix2pixとは異なりencoderがありません。正規分布に従う乱数から生成します。

なお、乱数の代わりに画像をencodeしたベクトルを使った場合、トップ画像やデモ動画のようにスタイル転写を行うことができます。

SPADEを利用した画像生成の結果

SPADEと従来手法を、セグメンテーション画像から生成した画像で比較してみましょう。

CRNやpix2pixでは同じ色のセグメンテーションに対する生成結果がのっぺりとしていますが、SPADEでは同じ海や土の中でも動きがあり繊細さを表現できています。

4種類のデータセットに対して生成画像のFID、生成画像を再セグメンテーションしたときのmIoU、accuracyを比較した結果がこちらです。ほとんどすべてのケースでSPADEが優位となりました。

人による評価でも同様にSPADEの優位性が示されました。

他にも、このような美しい画像を生成できたそうです。

まとめ

本論文は、空間方向に適応的なバッチ正規化手法「SPADE」を提案し、セグメンテーション画像からの画像生成の質を大きく向上させました。操作可能な画像生成の実現にまた一歩近づいたのではないでしょうか。

本田志温 avatar
AI創薬を研究する学生。CV/NLP/RLなど機械学習を広く勉強しています。 Twiiter(@shion_honda)でも日々簡単な論文紹介をしているのでぜひ覗いてみてください!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする