印象操作を行い”記憶させやすい”画像を生成するGAN

論文:GANALYZE: TOWARD VISUAL DEFINITIONS OF COGNITIVEIMAGE PROPERTIES

印象の操作を行う、と言った”定性的な”画像の操作はAIにはこれまで難しいといわれていました。
例えば、”記憶させやすい”画像とはどのようなものでしょうか?記憶のしやすさは、それらに伴うもの具体的な定義がありません。

今回紹介する新たなアイデアでは、”記憶させやすい”という画像の操作がどのようなものか学習し最適化することで、任意の画像を人間にとって記憶させやすいように変化させます。
記憶のしやすい画像を、”物体を大きく・画像を明るく・形状を丸く”すれば良い。という風に具体的な操作に落とし込み、傾向を学習させることで生成を可能にします。

さらに、学習したパラメータに”重み付け”を行うことを今回は試みます。これにより、”記憶のしやすさ”という方向性を元に、どの程度記憶しやすいかを調整することが可能です。

例えば、上のチーズバーガーを考えてみてください。このモデルでは、右に移動するにつれて、より記憶に残るチーズバーガーを視覚化しています。
一番右のバーガーはより明るく、丸く、より規範的で、おいしそうに見えます。視覚化は”記憶のしやすさ”のモデルに基づいて学習されるので、逆に言えば、人間が見ているものが実際に人間の感覚や感性にどのような因果的な影響を与えることを検証することができます。

さらに、”記憶のしやすさ”だけではなく”美しい”や”エモーショナル”といった印象を操作することも可能です。

 

モデル概要

 

 

上図が本モデルGANalyzeの概要になります。

既存学習済みモデルであるBigGANを生成器とし、さらに”記憶のしやすさ”を評価することができるCNNの一種である”MemNet”をスコア評価機として導入します。

従来のGANと大きく異なる点は、ノイズの入れ方です。「GANalyze」ではガウスノイズ z に加え、調整可能パラメータα と 何かしらの印象を表すパラメータ θ (例えば、記憶のしやすさ)の積を合成します。θはどの方向にパラメータを動かせば記憶しやすくなるかを意味し、αはその大きさを表します。

今回、画像に加えるノイズ関数は以下の式で示すことができます。

例えば、このパラメータが 「物体のサイズを大きくし、画像を明るく、さらに形を丸くした場合記憶しやすくなる」と学習した場合、あとはθの大きさを表す調整可能パラメータαを設定することで、画像の記憶のしやすさを可変にすることができます。

θがちゃんと”記憶のしやすさ”を表しているかを確認するために、学習を通じて潜在空間ベクトルであるθをスコア評価機”MemNet”の基準を元に、損失関数を最小化します。

損失関数は以下のように定義され、

調整可能パラメータαを加えて生成された画像(第一項)と、元々の画像にα分だけ直接差分を加えた画像(第二項)とで比較し、この損失関数を最小化させることで、”記憶のしやすさを表すパラメータ : θ”の方向を最適化させます。

どんな画像が生成されたか

このモデルは、決められた印象を表現するようなパラメータの最適化を目指して学習しているため、テスト時にはパラメータを調節でき任意の印象操作が可能となります。以下の画像は記憶のしやすさの軸に沿って生成された多くの例です。右に行くほど記憶に残りやすい画像が生成されていることが分かります。

 

こちらは、”美しさ”を表現するようなパラメーターに沿って生成された画像の例です。

以下は、異なるパラメータにおいて重みづけを行い生成された例を比較しています。

一番上の行は印象操作を行う前の画像を表しています。それぞれの評価値は左上隅に示されています。

今回紹介した技術を用いて、より人間の”感性”に訴えることのできる画像の印象操作が可能になります。
この技術を実用化すれば、例えば “より記憶に残りやすい”広告の生成がAIにより生成可能になるかもしれません。その他にも、メイクやファッションを様々比較し、”どんな印象を相手に与えることができるかなんて考えてみても面白いかもしれません。

コメント

中村幸雄 Yukio NAKAMURA  @yukio_n_being
2019/06/30 14:18

AIを用いて「記憶し易い」画像に変換する技術。同じ対象を撮影した写真でも、対象が通常の形状から崩れていたり、小さかったり、暗かったり、他の物が混在したりすると記憶に残りにくい。記憶に残り易い画像の傾向を学習したAIが画像変換を行うことで「記憶のしやすさ」を改善できる。新しい観点。 https://t.co/G4tQY2qRcf