バーチャル試着の実現はもう間近！？　生成モデル最前線！【PF-AFN】

GAN（敵対的生成ネットワーク） 2021年06月23日

3つの要点
✔️ 香港大学とテンセントが共同で，新しいバーチャル試着技術を開発
✔️ セグメンテーション情報を用いないパースフリーな「teacher-tutor-student」モデルを提案
✔️ 各種データセットでSoTAを達成

Parser-Free Virtual Try-on via Distilling Appearance Flows
written by Yuying Ge, Yibing Song, Ruimao Zhang, Chongjian Ge, Wei Liu, Ping Luo
(Submitted on 8 Mar 2021 (v1), last revised 9 Mar 2021 (this version, v2))
Comments: Accepted by CVPR2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

はじめに

バーチャル試着とは，衣服画像を人の体の画像に合わせることです．このタスクはEコマースやファッション画像編集において様々なアプリケーションへの応用が期待されることから，多くの研究者が取り組んできました．VTON, CP-VTON, VTNEP, ClothFlow, ACGPN, CP-VTON+などのSoTA手法のほとんどは，上半身等の体の異なるパーツのセグメンテーション情報を必要としていました．しかし，少しでもセグメンテーションを誤ってしまうと，上の画像のように，非常に非現実的な試着画像が生成されてしまうため，試着モデルには高精度なパース（セグメント）が必要とされています．

この高精度なセグメンテーション情報への依存度を下げるために，セグメンテーションを用いないパースフリーなネットワークであるWUTONが提案されました．WUTONではパースベースのモデルを「teacher」ネットワークとして蒸留を行い，それをパースフリーな「student」ネットワークとし，試着画像を生成します．しかし，WUTONではセグメント情報を入力として必要としない一方で，結局のところはパースベースのモデルを「teacher」として「student」を訓練しており，その精度はパースベースのモデルに依存しているのです．

こうした課題に対応するために本論文では，パースフリーなParse Free Appearance Flow Network (PF-AFN)が提案されました．

提案手法

本論文では，セグメンテーション情報を必要としない，パースフリーなモデルであるParser Free Appearance Flow Network（PF-AFN）が提案されています．これは，従来のWUTONなどとは異なり，初めて「teacher-tutor-student」という3段構成で知識の蒸留を行っています．上図では，PF-AFNとWUTONの違いを図示しています．

ネットワークの訓練

本手法は，上図からも分かる通り，パースベースのネットワークであるPB-AFNとパースフリーなネットワークであるPF-AFNの２つを含みます．訓練の手順としては，まず，PB-AFNを既存手法と同様に，衣服の画像とこの服を着た人の画像で訓練します．その際，紙，顔，衣服の下半身部分，体のセグメンテーション結果，姿勢推定の結果を連結（concatenate）させます．このゆがみを伴った衣服画像と人画像の保存した部分と姿勢推定を連結し，生成モジュールを訓練してground-truthの教師画像とともに，試着画像を合成することができます．

次に，このPB-AFNの訓練をした後，ランダムに異なる衣服画像を選択し，同じ人が異なる服を試着した画像を生成します．このパースベースのモデルを「tutor」ネットワークとして扱い，ここで生成されたフェイク画像を「tutor knowledge」として扱います．PF-AFNでは，tutorと衣服画像のアピアランスフローを予測するためにwarping moduleが用いられており，さらに生成モジュールはstudentをゆがみを持った衣服とtutorを合成します．本論文では，本物画像を「teacher knowledge」として扱い，studentの誤りを正し，studentが適切に元の本物画像を模倣できるようにします．さらにtutorネットワークであるPB-AFNはアピアランスフローをstudentネットワークであるPF-AFNに知識の蒸留を行います．

Appearance Flow Warping Module（AFWM）

PB-AFNとPF-AFNの両方ともwarping moduleを含んでおり，衣服の画像と衣服を歪ませるための人の画像の関連性を予測します．先ほどの図でも示されている通り，warping moduleの出力はアピアランスフローであり，それらは2D座標ベクトルです．それぞれのベクトルは衣服のどのピクセルが人画像のピクセルに対応するのか指し示しています．Warping moduleは2つのpyramid feature extraction network（PFEN）とprogressive appearance flow estimation network（AFEN）から成ります．そしてそれぞれのピラミッド階層において，AFENはアピアランスフローを生成し，次の階層で修正されます．パースベースのwarping module（PB-AFWM）とパースフリーなwarping module（PF-AFWM）は入力の違い以外全く同じアーキテクチャとなってます．

・Pyramid Feature Extraction Network（PFEN）

　先ほどの上図の(b)で示されている通り，PFENは2つのfeature pyramid network（FPN）から成り，N階層から2つのbranch pyramid featuresを抽出します．パースベースのwarping moduleの入力は衣服画像と人の特徴量である一方で，パースフリーなwarping moduleの入力は衣服の画像と生成されたフェイク画像となっています．

・Appearance Flow Estimation Network（AFEN）

AFENはN個のFlow Network（FN）から成り，N階層のpyramid featuresからアピアランスフローを推定します．最も高いN階層で抽出されたpyramid featuresはまず最初にFN-1に与えられて最初のアピアランスフローを推定します．次にN-1階層におけるpyramid featuresがFN-2に与えられます．このようなプロセスが最後の層まで繰り返され，最終亭にターゲット衣服が最後の出力に応じて歪みを与えられます．

Generative Module（GM）

PB-AFNとPF-AFNの両方とも，試着画像を合成するための生成モジュールを含んでいます．パースベースの生成モジュール（PB-GM）はゆがみを与えられた衣服，人間の姿勢推定，体の保存された領域を結合する一方で，パースフリーな生成モジュール（PF-GM）はゆがみを与えられた衣服とtutor画像を入力として結合します．両方のモジュールはRes-UNetを採用しており，それはUNetアーキテクチャを元に構成されています．

訓練フェーズにおいて，生成モデルとwarping moduleであるAFWMのパラメータはともに以下の式で最適化されます．

Ll: pixel-wise L1 loss

Lp: perceptual loss

Adjustable Knowledge Distillation

パーサーフリーなstudent networkであるPF-AFNを本物画像で教師あり学習させる以外にも，本論文ではさらに，人画像と衣服画像の間のアピアランスフローを蒸留し，それらの相関関係を見つけやすくしています．PB-AFNから抽出された特徴量は一般的に豊かなセマンティック情報を捉えており，推定されたアピアランスフローはより正確であると考えられ，ゆえにPF-AFNをガイドすることができます．しかし，先に指摘したように，もしパース結果が不正確であれば，パースベースのPB-AFNも全く異なるガイドをし，セマンティック情報と推定されたアピアランスフローも全くおかしなものにしていまいます．これを避けるために，本論文では，全く新しいadjustable distillation lossを導入しています．定義は以下のようになります．

実験

データセット

VITON, VITON-HD, MPVでそれぞれ実験が行われました．

結果

上図からも分かる通り，PF-AFNはVITON, MPV両方のデータセットにおいて，SoTAの性能を達成していることが分かります．

最後に

本論文では，「teacher-tutor-student」とうい全く新しい知識蒸留手法を用いて高性能な試着画像を，それもパースなしで生成することに成功しました．このアプローチの面白いところは，パースベースのtutorネットワークによって生成されたフェイク画像を，パースフリーなstudentネットワークの入力として扱い，さらに元の本物画像（teacher knowledge）によって教師あり学習させていることです．さらに本物画像を教師として用いるだけでなく，さらに人画像と衣服画像間のアピアランスフローを蒸留し，相関関係を見つけやすくしています．実験結果は各種データセットにおいてAF-PFNがSoTAを達成していることを示しています．