最新AI論文をキャッチアップ

数多の画像変換が可能!StyleGANの新たなEncoder!pixel2Style2pixel

数多の画像変換が可能!StyleGANの新たなEncoder!pixel2Style2pixel

GAN(敵対的生成ネットワーク)

3つの要点
✔️ 現実画像をStyleGANの潜在空間に埋め込むEncoder「pSp」の提案
✔️ 様々な画像変換タスクに応用可能

✔️ StyleGANの多様性を利用

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation
written by Elad RichardsonYuval AlalufOr PatashnikYotam NitzanYaniv AzarStav ShapiroDaniel Cohen-Or
(Submitted on 3 Aug 2020)

Comments: Published by arXiv
Subjects:  Computer Vision and Pattern Recognition (cs.CV)

Code

はじめに

高品質な画像を生成できるStyleGANですが、現実画像をStyleGANの潜在空間に埋め込むことは難しく、いくつかの手法が提案されてきました。今回紹介する「pixel2Style2pixel (pSp)」は画像から直接StyleGANの潜在変数を推定できるEncoderです。また、pSpの構造はそのままにセグメンテーションマップからの顔画像生成、顔の正面化、超解像など様々な画像変換タスクに応用可能になっています。

StyleGANの構造

まずは簡単にStyleGANの構造を見てみます。実際の実験ではStyleGAN2を使っています。しかし大まかな構造はStyleGANと共通しているため、StyleGANの全体像を見ることにします。

A style-based generator architecture for generative adversarial networks Figure 1.(b)より引用

正規分布からサンプリングした512次元ベクトルzをMapping networkに通して、同じく512次元ベクトルである潜在変数wを得ます。これをSynthesis networkのAの箇所にそれぞれ代入して最終的な画像出力を得ます。Aではアフィン変換(係数は学習パラメータとなります)を行います。最終的な出力の解像度が1024×1024の場合、$2^2$~$2^{10}$までブロックがあり、それぞれ2回ずつwを入力するので合計で18回wを入力することになります。

StyleGANの推論時には18回同じwを入力しますが、潜在変数推定でwを推論するだけでは上手くいかないことがわかっています。そのためpSpでは異なる18個のwを推論することにしています。この潜在空間をW+と呼びます。

それでは実際にpSpの構造を見ていきましょう。

続きを読むには

(4398文字画像12枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または
けやみぃ avatar
京都大学工学部1回生です。GANを使った画像生成・画像変換に興味があります。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする