最新AI論文をキャッチアップ

バーチャル試着の実現はもう間近!? 生成モデル最前線!【PF-AFN】

バーチャル試着の実現はもう間近!? 生成モデル最前線!【PF-AFN】

GAN(敵対的生成ネットワーク)

3つの要点
✔️ 香港大学とテンセントが共同で,新しいバーチャル試着技術を開発
✔️ セグメンテーション情報を用いないパースフリーな「teacher-tutor-student」モデルを提案
✔️ 各種データセットでSoTAを達成

Parser-Free Virtual Try-on via Distilling Appearance Flows
written by Yuying GeYibing SongRuimao ZhangChongjian GeWei LiuPing Luo
(Submitted on 8 Mar 2021 (v1), last revised 9 Mar 2021 (this version, v2))
Comments: Accepted by CVPR2021

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

はじめに

バーチャル試着とは,衣服画像を人の体の画像に合わせることです.このタスクはEコマースやファッション画像編集において様々なアプリケーションへの応用が期待されることから,多くの研究者が取り組んできました.VTON, CP-VTON, VTNEP, ClothFlow, ACGPN, CP-VTON+などのSoTA手法のほとんどは,上半身等の体の異なるパーツのセグメンテーション情報を必要としていました.しかし,少しでもセグメンテーションを誤ってしまうと,上の画像のように,非常に非現実的な試着画像が生成されてしまうため,試着モデルには高精度なパース(セグメント)が必要とされています.

この高精度なセグメンテーション情報への依存度を下げるために,セグメンテーションを用いないパースフリーなネットワークであるWUTONが提案されました.WUTONではパースベースのモデルを「teacher」ネットワークとして蒸留を行い,それをパースフリーな「student」ネットワークとし,試着画像を生成します.しかし,WUTONではセグメント情報を入力として必要としない一方で,結局のところはパースベースのモデルを「teacher」として「student」を訓練しており,その精度はパースベースのモデルに依存しているのです.

こうした課題に対応するために本論文では,パースフリーなParse Free Appearance Flow Network (PF-AFN)が提案されました.

関連用語

ここで,いくつかの関連する用語についておさらいしておきましょう.

・バーチャル試着:バーチャル試着のための既存の深層学習ベースの手法は3Dモデルベースのアプローチと2D画像ベースのアプローチに大別することができます.3Dモデルベースでは追加で3D測定とコンピューティングリソースが必要なため,2D画像ベースのアプローチの方が広く使われていると言っても差支えないでしょう.2D画像ベースの既存研究のほとんどでは人の画像から衣服部分をマスクし,対応する衣服画像に合わせて画像を再構成していましたが,高精度にパースする必要がありました.最近ではWUTONがパースフリーな手法を提案しましたが,以前としてパースベースモデルの性能に依存してしまっています.

Appearance FlowAppearance Flowとは,ソース画像内のどのピクセルを用いるとターゲットを合成することができるのかを示す2D座標クトルのことです.これはビジュアルトラッキングや画像修復,顔画像の超解像などに用いられています.

・知識の蒸留(Knowledge Distillation):知識の蒸留は,最初はモデル圧縮のために導入された考えで,「teacher」ネットワーク固有の情報を活用して,「student」ネットワークを訓練します.しかし最近では,知識の蒸留によって異なるタスク間でも知識を移行できることがわかってきており,複数のモデルが学んだ知識を単一のモデルに移すこともできます.

提案手法

本論文では,セグメンテーション情報を必要としない,パースフリーなモデルであるParser Free Appearance Flow NetworkPF-AFN)が提案されています.これは,従来のWUTONなどとは異なり,初めて「teacher-tutor-student」という3段構成で知識の蒸留を行っています.上図では,PF-AFNWUTONの違いを図示しています.

ネットワークの訓練

本手法は,上図からも分かる通り,パースベースのネットワークであるPB-AFNとパースフリーなネットワークであるPF-AFNの2つを含みます.訓練の手順としては,まず,PB-AFNを既存手法と同様に,衣服の画像とこの服を着た人の画像で訓練します.その際,紙,顔,衣服の下半身部分,体のセグメンテーション結果,姿勢推定の結果を連結(concatenate)させます.このゆがみを伴った衣服画像と人画像の保存した部分と姿勢推定を連結し,生成モジュールを訓練してground-truthの教師画像とともに,試着画像を合成することができます.

次に,このPB-AFNの訓練をした後,ランダムに異なる衣服画像を選択し,同じ人が異なる服を試着した画像を生成します.このパースベースのモデルを「tutor」ネットワークとして扱い,ここで生成されたフェイク画像を「tutor knowledge」として扱います.PF-AFNでは,tutorと衣服画像のアピアランスフローを予測するためにwarping moduleが用いられており,さらに生成モジュールはstudentをゆがみを持った衣服とtutorを合成します.本論文では,本物画像を「teacher knowledge」として扱い,studentの誤りを正し,studentが適切に元の本物画像を模倣できるようにします.さらにtutorネットワークであるPB-AFNはアピアランスフローをstudentネットワークであるPF-AFNに知識の蒸留を行います.

Appearance Flow Warping ModuleAFWM

PB-AFNPF-AFNの両方ともwarping moduleを含んでおり,衣服の画像と衣服を歪ませるための人の画像の関連性を予測します.先ほどの図でも示されている通り,warping moduleの出力はアピアランスフローであり,それらは2D座標ベクトルです.それぞれのベクトルは衣服のどのピクセルが人画像のピクセルに対応するのか指し示しています.Warping module2つのpyramid feature extraction networkPFEN)とprogressive appearance flow estimation networkAFEN)から成ります.そしてそれぞれのピラミッド階層において,AFENはアピアランスフローを生成し,次の階層で修正されます.パースベースのwarping modulePB-AFWM)とパースフリーなwarping modulePF-AFWM)は入力の違い以外全く同じアーキテクチャとなってます.

・Pyramid Feature Extraction Network(PFEN)

 先ほどの上図の(b)で示されている通り,PFEN2つのfeature pyramid networkFPN)から成り,N階層から2つのbranch pyramid featuresを抽出します.パースベースのwarping moduleの入力は衣服画像と人の特徴量である一方で,パースフリーなwarping moduleの入力は衣服の画像と生成されたフェイク画像となっています.

・Appearance Flow Estimation Network(AFEN)

AFENN個のFlow NetworkFN)から成り,N階層のpyramid featuresからアピアランスフローを推定します.最も高いN階層で抽出されたpyramid featuresはまず最初にFN-1に与えられて最初のアピアランスフローを推定します.次にN-1階層におけるpyramid featuresFN-2に与えられます.このようなプロセスが最後の層まで繰り返され,最終亭にターゲット衣服が最後の出力に応じて歪みを与えられます.

Generative ModuleGM

PB-AFNPF-AFNの両方とも,試着画像を合成するための生成モジュールを含んでいます.パースベースの生成モジュール(PB-GM)はゆがみを与えられた衣服,人間の姿勢推定,体の保存された領域を結合する一方で,パースフリーな生成モジュール(PF-GM)はゆがみを与えられた衣服とtutor画像を入力として結合します.両方のモジュールはRes-UNetを採用しており,それはUNetアーキテクチャを元に構成されています.

訓練フェーズにおいて,生成モデルとwarping moduleであるAFWMのパラメータはともに以下の式で最適化されます.

Ll: pixel-wise L1 loss

Lp: perceptual loss

Adjustable Knowledge Distillation

パーサーフリーなstudent networkであるPF-AFNを本物画像で教師あり学習させる以外にも,本論文ではさらに,人画像と衣服画像の間のアピアランスフローを蒸留し,それらの相関関係を見つけやすくしています.PB-AFNから抽出された特徴量は一般的に豊かなセマンティック情報を捉えており,推定されたアピアランスフローはより正確であると考えられ,ゆえにPF-AFNをガイドすることができます.しかし,先に指摘したように,もしパース結果が不正確であれば,パースベースのPB-AFNも全く異なるガイドをし,セマンティック情報と推定されたアピアランスフローも全くおかしなものにしていまいます.これを避けるために,本論文では,全く新しいadjustable distillation lossを導入しています.定義は以下のようになります.

実験

データセット

VITON, VITON-HD, MPVでそれぞれ実験が行われました. 

結果

上図からも分かる通り,PF-AFNVITON, MPV両方のデータセットにおいて,SoTAの性能を達成していることが分かります. 

最後に

本論文では,「teacher-tutor-student」とうい全く新しい知識蒸留手法を用いて高性能な試着画像を,それもパースなしで生成することに成功しました.このアプローチの面白いところは,パースベースのtutorネットワークによって生成されたフェイク画像を,パースフリーなstudentネットワークの入力として扱い,さらに元の本物画像(teacher knowledge)によって教師あり学習させていることです.さらに本物画像を教師として用いるだけでなく,さらに人画像と衣服画像間のアピアランスフローを蒸留し,相関関係を見つけやすくしています.実験結果は各種データセットにおいてAF-PFNSoTAを達成していることを示しています.

 

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする