数多の画像変換が可能！StyleGANの新たなEncoder！pixel2Style2pixel

GAN（敵対的生成ネットワーク） 2020年09月14日

3つの要点
✔️ 現実画像をStyleGANの潜在空間に埋め込むEncoder「pSp」の提案
✔️ 様々な画像変換タスクに応用可能
✔️ StyleGANの多様性を利用

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
written by Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, Daniel Cohen-Or
(Submitted on 3 Aug 2020)
Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)

Code

はじめに

高品質な画像を生成できるStyleGANですが、現実画像をStyleGANの潜在空間に埋め込むことは難しく、いくつかの手法が提案されてきました。今回紹介する「pixel2Style2pixel (pSp)」は画像から直接StyleGANの潜在変数を推定できるEncoderです。また、pSpの構造はそのままにセグメンテーションマップからの顔画像生成、顔の正面化、超解像など様々な画像変換タスクに応用可能になっています。

StyleGANの構造

まずは簡単にStyleGANの構造を見てみます。実際の実験ではStyleGAN2を使っています。しかし大まかな構造はStyleGANと共通しているため、StyleGANの全体像を見ることにします。

A style-based generator architecture for generative adversarial networks Figure 1.(b)より引用

正規分布からサンプリングした512次元ベクトルzをMapping networkに通して、同じく512次元ベクトルである潜在変数wを得ます。これをSynthesis networkのAの箇所にそれぞれ代入して最終的な画像出力を得ます。Aではアフィン変換(係数は学習パラメータとなります)を行います。最終的な出力の解像度が1024×1024の場合、$2^2$～$2^{10}$までブロックがあり、それぞれ2回ずつwを入力するので合計で18回wを入力することになります。

StyleGANの推論時には18回同じwを入力しますが、潜在変数推定でwを推論するだけでは上手くいかないことがわかっています。そのためpSpでは異なる18個のwを推論することにしています。この潜在空間をW+と呼びます。

それでは実際にpSpの構造を見ていきましょう。

続きを読むには

(4398文字画像12枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または