スッピンがバレる？GANによるメイクの取り外しと置き換えが可能に

論文 2019年05月08日

防犯カメラや顔認証カメラなど、AIを用いた顔認識技術はこれまで様々な形で発展してきました。この記事では、”メイク”に焦点を当てた新しい画像生成モデル「LADN」を紹介します。現代の最新技術では、メイクアップされた顔の画像からどのような事が可能なのでしょうか。

参考論文 LADN: Local Adversarial Disentangling Network for Facial Makeup and De-Makeup

本稿で紹介するモデル「LADN」は、画像生成モデルの一つであるGAN(敵対的生成ネットワーク)をさらに発展させたものとなっています。「LADN」を用いることにより、メイクした女性の画像からノーメイクの女性の画像へメイクを置き換えすることや、逆にノーメイクの画像を元にメイクした女性の画像のメイクを外すと行ったことが可能です。

従来の研究結果では、顔全体”だけ”であれば特徴量を抽出することにより画像生成や識別を行うことができました。また、各パーツ”だけ”に絞った詳細な識別も可能でした。しかし、顔全体からメイク部分だけを精密に取り外そうとすると、元々の画像比較して明らか不自然にメイクされていた部分が置き換わってしまいます。

「LADN」は、これら従来の全体的視点と局所的視点を持つモデルを”組み合わせる”ことにより、色鮮やかかつ複雑な形のメイクを不自然な継ぎ目なく取り外す・置き換える画像を生成することを可能にしています。

つまり、LADNを使えば写真一枚で済むので、男性は、彼女のすっぴんを確かめるためにわざわざ温泉に誘う必要がなくなるということです(女性から殺されそうですが‥)

「LADN」はどのようにしてメイクを取り除くのか?

「LADN」(Local Adversarial Disentangling Network)は、女性の顔の画像からメイク部分だけを別の顔の画像に移し替えたり、メイクを外した顔を生成することができる画像生成モデルの新提案です。画像認識技術の中でも、多層化した隠れ層を用いて、正解ラベルを必要とせず画像を生成することができる”教師なし深層学習”に分類されます。

これまでの技術では”メイクのみ”の特徴量を抽出することが困難でした。「LADN」では、はじめに多層のニューラルネットワークにより入力画像データの特徴量を抽出します。次に、メイク前とメイク後の特徴量の違いを識別器に識別させることでモデルに”メイク”がどのようなものかを学習させます。

これらを顔の各パーツ(目、口、鼻など)に対して行い、複数のパーツに対して同時に行うことでメイク画像の生成を行うことが可能になります。