最新AI論文をキャッチアップ

事前学習済みGANモデルを超解像技術へ

事前学習済みGANモデルを超解像技術へ

GAN(敵対的生成ネットワーク)

3つの要点
✔️ 事前学習済みGANモデルを利用した超解像
✔️ 64倍もの超解像で良質な結果を発揮
✔️ 事前学習済みGANモデルを様々なタスクに応用できる可能性を実証

GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution
written by Kelvin C.K. ChanXintao WangXiangyu XuJinwei GuChen Change Loy
(Submitted on 1 Dec 2020)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

GANは画像生成・画像編集のみならず、その内部表現を別のコンピュータビジョンタスクに転用する研究(https://ai-scholar.tech/articles/gan/fewshotpartsegmentation)も存在しています。

本記事では、事前学習済みのGANモデルの持つ知識を利用することにより、通常では困難な高い倍率(8x~64x)での超解像に取り組んだ研究について紹介します。提案手法(GLEAN)では、例えば以下のような高倍率の超解像に成功しています。

提案手法(GLEAN)

提案手法であるGLEAN(Generative LatEnt bANk)のアーキテクチャは以下の図で表されます。

 

この図では、入力画像が32x32、出力画像が256x256となる超解像を例としています。

Encoderについて

はじめに、入力となる低解像度(LR)画像に対してRRDBNetを用いて特徴量$f_0$を抽出します(図の$E_0$に対応)。

次に、その特徴に畳み込み処理を繰り返し行い、解像度の低い特徴を求めます。

$f_i=E_i(f_{i-1}), i \in {1,...,N}$

ここで、$E_i$はストライド2・ストライド1の畳み込みのスタックを表します。このとき求めた特徴を元に、StyleGANの潜在ベクトル$c_i$を列とする行列$C$を求めます。

$C=E_{N+1}(f_N)$

これらの特徴・潜在ベクトルは、事前学習済みのStyleGANをもとにしたGenerative Latent Bankに与えられます。

Generative Latent Bankについて

事前学習済みのStyleGANから画像に関する事前知識を得るため、以下の三つの修正を施したものをGenerative Latent Bankとして利用します。

  • Generatorの各ブロック$S_0,..,S_{K-1}$について、各ブロック$S_i$に一つの潜在ベクトル$c_i$を入力として与えます。
  • 潜在ベクトルに加えて画像の特徴量を追加で条件付けするため、追加の畳み込みを利用して以下の特徴量を求めます。

  • StyleGANのGeneratorから直接高解像度画像を生成するのではなく、Latent Bankの特徴量$g_i$とエンコーダからの特徴量をデコーダに渡すことで、二つの特徴量をよりよく融合させます。

総じて、StyleGANに最低限の修正と追加の畳み込み層を導入することで、超解像に役立つ知識を取得することがGenerative Latent Bankの目的となります。

Decoderについて

デコーダは、3x3の畳み込み$D_i$とその出力$d_i$について、以下の式で定義されます。

学習時の損失には、標準的なL2損失、Perceptual損失、敵対的損失を利用しています。学習時の損失設定は、既存研究であるESRGANと同様であり、事前学習済みのStyleGANを導入している点が主な違いとなります。

実験結果

実験では、事前学習済みのStyleGANまたはStyleGAN2を利用しています。

定性的比較

はじめに、16倍の超解像における既存手法との比較結果は以下の通りです。

総じて、既存手法はアイデンティティの保持やアーティファクト、テクスチャやディティールの面で失敗が目立つ一方、提案手法であるGLEANは良質な画像の生成に成功しています。また、更に倍率を増大させた場合の結果は以下の通りです。

 

64倍の超解像という困難な設定でも、Ground Truthと似た良質な画像の生成に成功しています。

・ポーズやコンテンツへのロバスト性

提案手法は、生成される画像が正面からの人物画像に限らなくとも良好な画像を生成することができます。これは以下の図で示されます。

 

既存手法であるPULSEは、人間以外の画像や正面画像以外に対して生成に失敗している一方、提案手法は良好な結果を示しています。また、人間以外の動物や風景などに適用した場合の結果は以下の通りです。

 

この場合でも、提案手法は良好な結果を示しており、コンテンツやポーズに対してロバストであることが示されました。

定量的比較

定量的な比較のため、CelebA-HQから抽出された100枚の画像について、ArcFace埋め込み空間上でのGround Truthとのコサイン類似度を計算した結果は以下の表で示されます。

 

また、異なるカテゴリに対しての結果は以下の通りです(100枚の画像に対する平均PSNR/LPIPSを測定しています)。

 

提案手法はBedroom以外のカテゴリに対し最良の結果を示しており、既存手法に対する優位性を示しました。

アブレーション研究

エンコーダについて

提案手法では、エンコーダから生成された複数の解像度の特徴量をLatent Bankに与えています。

このとき与える特徴量を減少させた場合の結果は以下の通りです。

与える特徴量が多いほど、生成される画像の元画像に対する忠実度・品質が向上しており、提案手法の有効性を示しています。

・Latent Bankについて

次に、Latent Bankから利用する特徴量を減少させた場合の結果は以下の通りです。

 

事前学習済みのGANモデルから情報を得られない場合、ネットワークは画像の構造・テクスチャの両方を同時に生成しなければならず、どちらについても良好に機能していません。

一方、Latent Bankからこれらの構造・テクスチャに関する情報を受け取ることにより、どちらについてもより良好な結果を得ることができます。

・デコーダについて

デコーダを利用しなかった場合の結果は以下の通りです。

デコーダを利用しなかった場合(w/o decoder)、全体としては違和感がなくとも、画像を拡大すると不快なアーティファクトが生じていることがわかります。

・参照ベースの手法との比較

提案手法を、超解像のための参照ベース手法であるSRNTTDFDNetと比較した場合の結果は以下の通りです。

既存手法は、画像の辞書を利用することにより画像の復元の質を向上させますが、辞書に存在しない部分(肌や髪など)では良好に機能しなかったり、細かいテクスチャを再現できないなどの問題が生じます。

一方提案手法では、辞書内の画像を検索するなどの煩雑な手順を踏むことなく、既存手法より優れた質の超解像に成功しています。

画像レタッチへの応用

提案手法の超解像以外に対する応用として、画像のレタッチが挙げられます。これは以下の図で示されます。

この図では、ぼやけた領域を含む画像(Retouched)に対し提案手法を用いることで、不自然なアーティファクトを除去することに成功しています。

このように提案手法は、超解像以外のタスクにも応用することができる可能性を秘めています。

まとめ

提案手法であるGLEANは、StyleGANなどの事前学習済みGANモデルを利用することにより、最大で64倍もの超解像について良好な結果を示しました。

これは画像のノイズ除去などの様々な画像タスクにも拡張できる可能性を秘めており、事前学習済みのGANモデルを別のタスクに転用できる可能性を示した研究であると言えるでしょう。


 

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする