猫⇔人間の画像変換も可能!?CycleGANの発展形『Transgaga』
3つの要点
✔️ 画像のスタイル変換タスク
✔️ 入力画像をgeometry(向き)とappearance(形状)に分ける
✔️ CycleGANでは不可能な大きな幾何学的変化を要するスタイル変換を可能とした
TransGaGa: Geometry-Aware Unsupervised Image-to-Image Translation
written by Wayne Wu, Kaidi Cao, Cheng Li, Chen Qian, Chen Change Loy
(Submitted on 21 Apr 2019)
Comments: Accepted to CVPR 2019. Project page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)
はじめに
スタイル変換可能なモデルとしてpix2pixが提案されましたが、pix2pixはペアとなるデータセットを用意しなければなりませんでした。その後に提案されたCycleGANはpix2pixと異なりサイクル損失を導入することでペアのデータセットを用意することなくスタイル変換が可能となりました。しかし大きな幾何学的変化を要するスタイル変換が上手くいかず、馬⇔シマウマなどの色の変化しかできていませんでした。
2018年に提案されたMUNITは、VAE(Variational AutoEncoder)を用い、2つのドメイン間の共通変数を用意しました。それを他方のデコーダに通すことでスタイル変換を可能とし、マルチモーダルとしました。2つのドメインを1つの潜在変数で表現するという目的は直感的ですが、実際はそう簡単ではなくより複雑なドメイン間の幾何学的構造を表現することは困難でした。
今回提案されたモデルは、画像をgeometry(向き)とappearance(形状)に分けそれぞれ潜在変数に落とし込むことで大きな幾何学的変化を要するスタイル変換を可能としました。さらに従来の手法よりもより自然でより多様性のある生成画像が得られました。
続きを読むには
(4030文字画像9枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー