GANによる顔の復元-CVPR2021-

GAN（敵対的生成ネットワーク） 2021年08月17日

3つの要点
✔️ ブラインドフェイスの復元のための新しい優れたモデル
✔️ 既存のすべてのモデルを大幅に凌駕
✔️ 人間のレビュアーが他のモデルよりも高く評価

GAN Prior Embedded Network for Blind Face Restoration in the Wild
written by Tao Yang, Peiran Ren, Xuansong Xie, Lei Zhang
(Submitted on 13 May 2021)
Comments: Accepted by CVPR2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

はじめに

画像復元の分野では多くの進歩が見られますが、ブラインド・フェイス・レストレーション(blind face restoration：BFR)は依然として課題となっています。BFRがより複雑なのは、現在のモデルが、低品質(LQ)画像が受ける様々な劣化(学習時には不明)に対してうまく一般化できないからです。モデルの中には、人工的な歪みに対してはうまく復元できるが、そうでない場合は失敗するものもあります。またより現実的な結果が得られるモデルもあるが、顔を過度に滑らかにしてしまう傾向があることがわかります。

本論文では、自然な状態の顔画像(実生活で複雑な歪みを受けた画像)を復元する新しい手法を紹介します。具体的には、HQ顔画像生成のために事前に学習されたGenerative Adversarial Network(GAN)とDeep Neural Network(DNN)デコーダを統合します。このモデルは、BFRの新たな技術水準を確立し、深刻なダメージを受けた画像を復元することができます。

GAN Prior Embedded Network (GPEN)

BFRの課題は、入力されたLQ画像x∈Xと、それに対応する元のHQ画像y∈Yを正しく対応付けることです。現在の手法では、XからYへのマッピング関数としてDNNを学習することを目的としています。このアプローチの問題点は、これが一対多の問題であり、特定のxに対して可能な顔画像(y1,y2,y3...)が多数存在することです。これらのDNNは、ターゲットに対するピクセルごとの損失関数を用いて学習されるため、最終的な解y = DNN(x)は、使用されたターゲットの顔の平均となる傾向があります。そのため、生成された顔は過度に平滑化され、ディテールがないものになってしまうのです。詳細はこちらで「高倍率な超解像度化が可能！全く新たな超解像手法PULSE」

これらの問題を解決するために、GAN事前ネットワークを学習し、それをDNNデコーダに埋め込んでHQ画像を生成します。上の図に示すように、画像はまず、CNNに渡され、潜在空間Z内の所望の潜在コードzにマッピングされます。この潜在コードzは次にGANに渡され、HQ画像が生成される。これまでの手法とは異なり、GANは1対1のマッピングを行う。つまり、潜在コードをHQ画像にマッピングするのです。ただし、これではGPENが1つのLQ画像から複数のHQ画像を生成することはできないので注意が必要です。アーキテクチャの詳細については、次に説明します。

アーキテクチャ

モデルGPENは、UNETのようなアーキテクチャ構造を持ちます(c)。前半はDNNで、後半はGANで構成されます。UNETのように、前半の各ブロックからの特徴マップは、後半の対応するGANブロックの入力となります。両者を組み合わせる前に、GANはHQの顔画像を生成するために別々に事前学習されています。その後、2つのブロックを結合し、BFRのためのfine-tuningを行います。GAN(a)は複数のGANブロック(b)で構成されており、これらは一般的なGANの中から選ぶことが可能です(BigGAN、StyleGAN、PGGAN)。ここでは、HQ画像の生成に優れているStyleGAN-v2のGANブロックを使用しています。StyleGANと同様に、DNNから得られた潜在的なベクトル"z"は、まず絡みの少ない空間Wに変換され、この変換されたベクトル"w"が各GANブロックにブロードキャストされます。またGAN単独での学習時には、ノイズが各GANブロックにブロードキャストされ、特徴量マップと結合します。このノイズは、結合モデルにおいてDNNのそれぞれの特徴量マップに置き換えられます。また結合モデルでは、潜在的なベクトル"z"はDNNの出力で与えられます。GANの詳細については、こちらの論文をご覧ください。

学習

GANは、まずStyleGANと同様の設定で独立して学習されます。その後、DNNに組み込み、敵対的損失L_A、コンテンツ損失L_C、特徴照合損失L_Fの3つの損失関数を用いて学習されていきます。敵対的損失は以下のように与えられます。

ここでDは識別器モデル、Gは生成器モデルGPEN、X'はLQ画像、Xはground-truth HQ画像です。LCはground-truth画像と生成画像の間のL1ノルムです。LFは、生成画像と原画像の識別器の特徴マップ間のL-2ノルムの和です。

ここでTは識別器の中間層の数です。つまり、複合損失は以下のようになる。

すべての実験において、α＝1、β＝0.02としています。特徴照合損失により、敵対的損失とのバランスをとり、より現実的な/詳細な画像を復元することができます。

実験

我々は，1024x1024の解像度を持つ70000枚以上のHQ画像を含むFFHQデータセットを用いてモデルを学習した．同じデータセットを使って、GANの事前ネットワークのトレーニングと、結合ネットワークのファインチューニングを行いました。ファインテューニングでは，FFHQデータセットからLQ画像を合成します．HQ画像は，ランダムにぼかし，ダウンサンプリングし，ガウスノイズを加えて圧縮している．数学的には，劣化は次のようなモデルで表される：

I, k, nσ, Idはそれぞれ、入力顔画像、ぼかしカーネル、標準偏差σのガウスノイズ、および劣化画像です。同様に、⊗，↓s，JPEGqは，2次元の畳み込み，標準的なs倍のダウンサンプラ、品質係数qのJPEG圧縮を表します。エンコーダ、デコーダ、ディスクリミネータの3つのモデルはAdamを用いて、3つの異なる学習率lr_enc = 0.002; lr_enc:lr_dec:lr_dis = 100:10:1で学習されます。

Comparison of Variants of GPEN

GPENの構成要素の重要性を調べるために、BFR上で様々なバリエーションのGPENを評価しました。GPEN-w/o-ftは、組み込みGANのfine-tuningを行わないバージョンです。GPEN-w/o-noiseは、GANブロックの学習時にノイズを加えないバージョンです。GPEN-noise-addは、GANブロックへのノイズ入力を連結するのではなく、追加するバリエーションです。

上の表は、FFHQデータセットにおけるこれらすべてのバリアントのPSNR、FID、およびLPIPSスコアを示しています。GPENモデルがその亜種よりも優れていることは明らかです。

Comparison with other GANs

顔復元GANの多くは、LR画像からHR画像を生成するというFSRタスクのために設計されています。そこで、GPENをFSR、合成BFR、BFR in the wildの他の最先端のGANと比較します。

上の表はFSRでの結果を示しています。BFR用に設計されたモデルと、FSR専用に設計されたモデルと比較しています。LR画像は、CelebA-HQデータセットを用いて生成しています。モデルに何も追加しないバイリニアモデルがPSNR指標で最も良いスコアを出しており、PSNRはFSRに適した指標ではないことがわかります。GPENがFIDとLPIPSの指標で他のモデルを上回っているのが特徴的です。

上の表は、CelebA-HQデータセットから合成されたLQ画像のBFRの結果です。FSRと同様に、GPENはFIDとLPIPSの指標で他のモデルを大差で上回っています。

GPENの実用的な意義を明らかにするために、インターネット上から1000枚のLQ顔画像を収集し、GPENと他のSOTAモデルの結果と、ボランティアに再構成された画像の品質を評価してもらいました。その結果、GPENによって再構成された画像の知覚的品質は、他のSOTA手法よりもはるかに優れていることがわかりました。それでは、いくつかのサンプル画像を見てみましょう。

このように他の方法では、ずっと言ってきた「画像の過度な平滑化」が目立ち、視覚的な詳細を加えることができないことがわかります。

将来的に、著者たちはGPENを拡張して、1つのLQ画像に対して複数のHQ出力ができるようにしたいと考えています。例えば、追加のHQ顔画像を参照として使用し、異なる参照画像に対して異なるHQ出力をGPENで生成できるようにしることを考案しています。

まとめ

これまで見てきたように、現在のSOTAモデルは、実世界の劣化した画像にうまく一般化できていません。しかし本手法は、その困難を克服しています。GPENは直接実用的なアプリケーションと言えます。本研究は、顔の色付け、顔のインペインティング、顔以外の画像の復元など、他のタスクに拡張することができます。また、GPENを拡張して、与えられたLQ画像に対して複数のHQ出力を生成することもできます。今後の拡張に期待されます。