数多の画像変換が可能!StyleGANの新たなEncoder!pixel2Style2pixel
3つの要点
✔️ 現実画像をStyleGANの潜在空間に埋め込むEncoder「pSp」の提案
✔️ 様々な画像変換タスクに応用可能
✔️ StyleGANの多様性を利用
Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
written by Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, Daniel Cohen-Or
(Submitted on 3 Aug 2020)
Comments: Published by arXiv
Subjects: Computer Vision and Pattern Recognition (cs.CV)
はじめに
高品質な画像を生成できるStyleGANですが、現実画像をStyleGANの潜在空間に埋め込むことは難しく、いくつかの手法が提案されてきました。今回紹介する「pixel2Style2pixel (pSp)」は画像から直接StyleGANの潜在変数を推定できるEncoderです。また、pSpの構造はそのままにセグメンテーションマップからの顔画像生成、顔の正面化、超解像など様々な画像変換タスクに応用可能になっています。
StyleGANの構造
まずは簡単にStyleGANの構造を見てみます。実際の実験ではStyleGAN2を使っています。しかし大まかな構造はStyleGANと共通しているため、StyleGANの全体像を見ることにします。
A style-based generator architecture for generative adversarial networks Figure 1.(b)より引用
正規分布からサンプリングした512次元ベクトルzをMapping networkに通して、同じく512次元ベクトルである潜在変数wを得ます。これをSynthesis networkのAの箇所にそれぞれ代入して最終的な画像出力を得ます。Aではアフィン変換(係数は学習パラメータとなります)を行います。最終的な出力の解像度が1024×1024の場合、$2^2$~$2^{10}$までブロックがあり、それぞれ2回ずつwを入力するので合計で18回wを入力することになります。
StyleGANの推論時には18回同じwを入力しますが、潜在変数推定でwを推論するだけでは上手くいかないことがわかっています。そのためpSpでは異なる18個のwを推論することにしています。この潜在空間をW+と呼びます。
それでは実際にpSpの構造を見ていきましょう。
続きを読むには
(4398文字画像12枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー