顔画像に豊かな表情を!変幻自在な感情を再現するGANの最新アーキテクチャ!

3 check points !  

 

✔️ 笑い、怒り、喜びなどの条件指定におけるナチュラルな表情を生成可能

✔️特徴量の計算を、”顔全体”と”輪郭の幾何学構造”に分割することで新たな学習手法を提案

✔️カルバックライブラ情報量の事前・事後分布を階層正規分布によって決定した新たな損失関数の定義

 

近年、GANの研究の目覚ましい進歩により顔画像そのものの生成だけでなく、顔の”表情”に注目した画像生成の研究も様々行われてきました。しかしながら、そのクオリティは高いとは言い難く、どうしても不自然であったり、表情のパターンも一定でした。

表情生成モデルは、映像製作や顔認証分析などの分野において、実用性の幅も広く進歩が期待されています。

これまでは、「C-VAE(Conditional Variational Auto-Encoder)」というモデルが表情操作のタスクには用いられていました。 

しかし、このC-VAEを用いた表情操作モデルは、表情と顔画像を統合した出力を行う際、特徴量分布を一つの正規分布と仮定してしまうため、多様性を失ってしまうという問題がありました。すなわち、人間の顔画像は、”年齢”、”向き”、”輝度”など様々な情報を含んでおり、単一の正規分布による仮定は不十分なと言えます。

さらに、 人間の表情は、風景や動物、数字などと比較し粒度が高いため、従来のVAEアーキテクチャーではその解像度を保つことができません。

これら2つの問題の解決策として、今回は表情生成のGANの最新アーキテクチャー提案「AF-VAE (Additive Focal Variational Auto-encoder)」が提案されています。

この記事をシェアする