1枚の画像から表情変換を実現！U-Netベースの新たな表情変換モデル「FaR-GAN」

GAN（敵対的生成ネットワーク） 2020年06月03日

3つの要点
✔️ 1枚のソース画像から表情変換を実現
✔️ U-Netをベースにしたシンプルなアーキテクチャ
✔️ SPADE module、Noise Block、self-attentionを追加することでより現実味のある画像を生成

FaR-GAN for One-Shot Face Reenactment
written by Hanxiang Hao,Sriram Baireddy,Amy R. Reibman,Edward J. Delp
(Submitted on 13 May 2020)
Comments: Published by CVPR 2020
Subjects: Computer Vision and Pattern Recognition (cs.CV)

記事中の画像や図表はすべて上記の論文から引用しています。

概要

今までも表情変換のモデルは多く登場していますが、それらは生成画像の質が悪かったり、画像ごとにfew-shot learningが必要だったりといった課題が存在します。今回紹介する「FaR-GAN」は、一度大規模なデータセットで学習させた後、データセットに含まれていない人物でも1枚の画像から高品質な画像変換を実現しています。

以下がFaR-GANの生成画像です。左の2枚がソース画像、上の4枚がターゲット画像を表し、これらをモデルの入力としています。Reenacted Resultsが生成画像で、ターゲット画像の表情をしたソース画像の人物の顔となっています。