最新AI論文をキャッチアップ

GANによる顔の復元-CVPR2021-

GANによる顔の復元-CVPR2021-

GAN(敵対的生成ネットワーク)

3つの要点
✔️ ブラインドフェイスの復元のための新しい優れたモデル
✔️ 既存のすべてのモデルを大幅に凌駕
✔️ 人間のレビュアーが他のモデルよりも高く評価

GAN Prior Embedded Network for Blind Face Restoration in the Wild
written by Tao YangPeiran RenXuansong XieLei Zhang 
(Submitted on 13 May 2021)
Comments: Accepted by CVPR2021

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

はじめに

画像復元の分野では多くの進歩が見られますが、ブラインド・フェイス・レストレーション(blind face restoration:BFR)は依然として課題となっています。BFRがより複雑なのは、現在のモデルが、低品質(LQ)画像が受ける様々な劣化(学習時には不明)に対してうまく一般化できないからです。モデルの中には、人工的な歪みに対してはうまく復元できるが、そうでない場合は失敗するものもあります。またより現実的な結果が得られるモデルもあるが、顔を過度に滑らかにしてしまう傾向があることがわかります。

本論文では、自然な状態の顔画像(実生活で複雑な歪みを受けた画像)を復元する新しい手法を紹介します。具体的には、HQ顔画像生成のために事前に学習されたGenerative Adversarial Network(GAN)とDeep Neural Network(DNN)デコーダを統合します。このモデルは、BFRの新たな技術水準を確立し、深刻なダメージを受けた画像を復元することができます。

GAN Prior Embedded Network (GPEN)

BFRの課題は、入力されたLQ画像x∈Xと、それに対応する元のHQ画像y∈Yを正しく対応付けることです。現在の手法では、XからYへのマッピング関数としてDNNを学習することを目的としています。このアプローチの問題点は、これが一対多の問題であり、特定のxに対して可能な顔画像(y1,y2,y3...)が多数存在することです。これらのDNNは、ターゲットに対するピクセルごとの損失関数を用いて学習されるため、最終的な解y = DNN(x)は、使用されたターゲットの顔の平均となる傾向があります。そのため、生成された顔は過度に平滑化され、ディテールがないものになってしまうのです。詳細はこちらで「高倍率な超解像度化が可能!全く新たな超解像手法PULSE

これらの問題を解決するために、GAN事前ネットワークを学習し、それをDNNデコーダに埋め込んでHQ画像を生成します。上の図に示すように、画像はまず、CNNに渡され、潜在空間Z内の所望の潜在コードzにマッピングされます。この潜在コードzは次にGANに渡され、HQ画像が生成される。これまでの手法とは異なり、GANは1対1のマッピングを行う。つまり、潜在コードをHQ画像にマッピングするのです。ただし、これではGPENが1つのLQ画像から複数のHQ画像を生成することはできないので注意が必要です。アーキテクチャの詳細については、次に説明します。 

アーキテクチャ

モデルGPENは、UNETのようなアーキテクチャ構造を持ちます(c)。前半はDNNで、後半はGANで構成されます。UNETのように、前半の各ブロックからの特徴マップは、後半の対応するGANブロックの入力となります。 両者を組み合わせる前に、GANはHQの顔画像を生成するために別々に事前学習されています。その後、2つのブロックを結合し、BFRのためのfine-tuningを行います。GAN(a)は複数のGANブロック(b)で構成されており、これらは一般的なGANの中から選ぶことが可能です(BigGAN、StyleGAN、PGGAN)。ここでは、HQ画像の生成に優れているStyleGAN-v2のGANブロックを使用しています。StyleGANと同様に、DNNから得られた潜在的なベクトル"z"は、まず絡みの少ない空間Wに変換され、この変換されたベクトル"w"が各GANブロックにブロードキャストされます。またGAN単独での学習時には、ノイズが各GANブロックにブロードキャストされ、特徴量マップと結合します。このノイズは、結合モデルにおいてDNNのそれぞれの特徴量マップに置き換えられます。また結合モデルでは、潜在的なベクトル"z"はDNNの出力で与えられます。GANの詳細については、こちらの論文をご覧ください。

学習

GANは、まずStyleGANと同様の設定で独立して学習されます。その後、DNNに組み込み、敵対的損失LA、コンテンツ損失LC、特徴照合損失LFの3つの損失関数を用いて学習されていきます。敵対的損失は以下のように与えられます。

ここでDは識別器モデル、Gは生成器モデルGPEN、X'はLQ画像、Xはground-truth HQ画像です。LCはground-truth画像と生成画像の間のL1ノルムです。LFは、生成画像と原画像の識別器の特徴マップ間のL-2ノルムの和です。  

ここでTは識別器の中間層の数です。つまり、複合損失は以下のようになる。

すべての実験において、α=1、β=0.02としています。特徴照合損失により、敵対的損失とのバランスをとり、より現実的な/詳細な画像を復元することができます。

実験

我々は,1024x1024の解像度を持つ70000枚以上のHQ画像を含むFFHQデータセットを用いてモデルを学習した.同じデータセットを使って、GANの事前ネットワークのトレーニングと、結合ネットワークのファインチューニングを行いました。ファインテューニングでは,FFHQデータセットからLQ画像を合成します.HQ画像は,ランダムにぼかし,ダウンサンプリングし,ガウスノイズを加えて圧縮している.数学的には,劣化は次のようなモデルで表される: 

I, k, nσ, Idはそれぞれ、入力顔画像、ぼかしカーネル、標準偏差σのガウスノイズ、および劣化画像です。同様に、⊗,↓s,JPEGqは,2次元の畳み込み,標準的なs倍のダウンサンプラ、品質係数qのJPEG圧縮を表します。エンコーダ、デコーダ、ディスクリミネータの3つのモデルはAdamを用いて、3つの異なる学習率lrenc = 0.002; lrenc:lrdec:lrdis = 100:10:1で学習されます。

Comparison of Variants of GPEN

GPENの構成要素の重要性を調べるために、BFR上で様々なバリエーションのGPENを評価しました。GPEN-w/o-ftは、組み込みGANのfine-tuningを行わないバージョンです。GPEN-w/o-noiseは、GANブロックの学習時にノイズを加えないバージョンです。GPEN-noise-addは、GANブロックへのノイズ入力を連結するのではなく、追加するバリエーションです。

上の表は、FFHQデータセットにおけるこれらすべてのバリアントのPSNR、FID、およびLPIPSスコアを示しています。GPENモデルがその亜種よりも優れていることは明らかです。

Comparison with other GANs

顔復元GANの多くは、LR画像からHR画像を生成するというFSRタスクのために設計されています。そこで、GPENをFSR、合成BFR、BFR in the wildの他の最先端のGANと比較します。


上の表はFSRでの結果を示しています。BFR用に設計されたモデルと、FSR専用に設計されたモデルと比較しています。LR画像は、CelebA-HQデータセットを用いて生成しています。モデルに何も追加しないバイリニアモデルがPSNR指標で最も良いスコアを出しており、PSNRはFSRに適した指標ではないことがわかります。GPENがFIDとLPIPSの指標で他のモデルを上回っているのが特徴的です。

上の表は、CelebA-HQデータセットから合成されたLQ画像のBFRの結果です。FSRと同様に、GPENはFIDとLPIPSの指標で他のモデルを大差で上回っています。 

GPENの実用的な意義を明らかにするために、インターネット上から1000枚のLQ顔画像を収集し、GPENと他のSOTAモデルの結果と、ボランティアに再構成された画像の品質を評価してもらいました。その結果、GPENによって再構成された画像の知覚的品質は、他のSOTA手法よりもはるかに優れていることがわかりました。それでは、いくつかのサンプル画像を見てみましょう。

このように他の方法では、ずっと言ってきた「画像の過度な平滑化」が目立ち、視覚的な詳細を加えることができないことがわかります。

将来的に、著者たちはGPENを拡張して、1つのLQ画像に対して複数のHQ出力ができるようにしたいと考えています。例えば、追加のHQ顔画像を参照として使用し、異なる参照画像に対して異なるHQ出力をGPENで生成できるようにしることを考案しています。

まとめ 

これまで見てきたように、現在のSOTAモデルは、実世界の劣化した画像にうまく一般化できていません。しかし本手法は、その困難を克服しています。GPENは直接実用的なアプリケーションと言えます。本研究は、顔の色付け、顔のインペインティング、顔以外の画像の復元など、他のタスクに拡張することができます。また、GPENを拡張して、与えられたLQ画像に対して複数のHQ出力を生成することもできます。今後の拡張に期待されます。

宣伝

cvpaper.challenge主催でComputer Visionの分野動向調査,国際発展に関して議論を行うシンポジウム(CCC2021)を開催します.
世界で活躍している研究者が良い研究を行うための講演や議論が聴ける貴重な機会が無料なので,みなさん貴重な機会を逃さないように!!

Thapa Samrat avatar
今大阪大学の電子情報工学科で学習している2年生のネパールからの留学生です。 機械学習・深層学習に興味あります。だから、暇なときにそれらについて記事を書いています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする