スッピンがバレる?GANによるメイクの取り外しと置き換えが可能に

防犯カメラや顔認証カメラなど、AIを用いた顔認識技術はこれまで様々な形で発展してきました。この記事では、”メイク”に焦点を当てた新しい画像生成モデル「LADN」を紹介します。現代の最新技術では、メイクアップされた顔の画像からどのような事が可能なのでしょうか。

参考論文 LADN: Local Adversarial Disentangling Network for Facial Makeup and De-Makeup

本稿で紹介するモデル「LADN」は、画像生成モデルの一つであるGAN(敵対的生成ネットワーク)をさらに発展させたものとなっています。「LADN」を用いることにより、メイクした女性の画像からノーメイクの女性の画像へメイクを置き換えすることや、逆にノーメイクの画像を元にメイクした女性の画像のメイクを外すと行ったことが可能です。

従来の研究結果では、顔全体”だけ”であれば特徴量を抽出することにより画像生成や識別を行うことができました。また、各パーツ”だけ”に絞った詳細な識別も可能でした。しかし、顔全体からメイク部分だけを精密に取り外そうとすると、元々の画像比較して明らか不自然にメイクされていた部分が置き換わってしまいます。

「LADN」は、これら従来の全体的視点と局所的視点を持つモデルを”組み合わせる”ことにより、色鮮やかかつ複雑な形のメイクを不自然な継ぎ目なく取り外す・置き換える画像を生成することを可能にしています。

つまり、LADNを使えば写真一枚で済むので、男性は、彼女のすっぴんを確かめるためにわざわざ温泉に誘う必要がなくなるということです(女性から殺されそうですが‥)

「LADN」はどのようにしてメイクを取り除くのか?

「LADN」(Local Adversarial Disentangling Network)は、女性の顔の画像からメイク部分だけを別の顔の画像に移し替えたり、メイクを外した顔を生成することができる画像生成モデルの新提案です。画像認識技術の中でも、多層化した隠れ層を用いて、正解ラベルを必要とせず画像を生成することができる”教師なし深層学習”に分類されます。

これまでの技術では”メイクのみ”の特徴量を抽出することが困難でした。「LADN」では、はじめに多層のニューラルネットワークにより入力画像データの特徴量を抽出します。次に、メイク前とメイク後の特徴量の違いを識別器に識別させることでモデルに”メイク”がどのようなものかを学習させます。

これらを顔の各パーツ(目、口、鼻など)に対して行い、複数のパーツに対して同時に行うことでメイク画像の生成を行うことが可能になります。

「LADN」のモデル概要図

上画像が「LADN」のモデル概要図になります。

入力データは似た画像に見えますが、上から、

1.元データ(メイクアップされた顔の画像)

2.参考データ(手動で作成したメイク前後の合成画像)

3.生成データ(メイクしていない顔に1.のメイクを付け足した自動生成画像)

となっています。

GANの原理を元に入力画像から生成した画像と、参照画像を識別機にかけ、識別器が間違えるようになるまで生成画像の精度を高めていきます。これらをより多層化し特徴量抽出を複数回繰り返すことで、「LADN」は多様なメイクでもそのパーツ(目や鼻、口など)に対して取り外しと置き換えを可能にします。

この学習を顔の各パーツについて行うことにより、あらゆる種類のメイクについて非常に高精度で認識し、出力データはより自然にメイクが置き換わって生成された画像となります。

 

結果

本研究では2つの実験に分けて、メイクの置き換えとメイクの取り外しを行いました。

1.メイクの置き換え

上記画像は、本モデル「LADN」を用いてメイクの取り外し・置き換えを行った画像になります。1行目がメイクをする前の画像、2行目が入力データとなるメイクの画像、3行目が出力データとなる1行目の女性の画像に2行目の女性のメイクを置き換えた結果となります。

出力画像(3行目)は、高い精度で異なる人の顔にメイクを置き換えることができており、かつとても自然な画像になっていることが分かります。

2.メイクの取り外し

続いて、本モデルを用いてメイクの取り外しを行った結果が上画像になります。1行目がメイクアップ時の顔、2行目がメイクを取り外した顔の画像になります。こちらも、違和感なくメイクを取り外すことができ、なおかつ元の人物の顔がはっきりとわかるほど再現されています。

今後の課題と展望

本稿で紹介した新たなネットワーク”LADN”にも、未だに課題はあります。例えば、顔半分に色塗りされたメイクを外す場合だと、メイクの特徴量を識別することが難しくなります。すなわち、生成される画像はメイクがあった場所とない場所を明確に分けることしかできず、違和感が残ってしまいます。

しかしながら、”LADN”は従来の技術と比較して、多様な色の細やかな変化を持つメイクを、非常に高精度かつ滑らかに別の画像に置き換えることが可能です。これら技術を用いることにより、芸能・美容関係の仕事はもちろん、日常的なメイクの参考として幅広く活用することが今後は期待できます。

 

[画像左 : 入力元のメイクアップ画像 右 : 出力されたメイク取り外し後画像]

(右画像の顔の中心を境目に不自然な歪みが見られる)