芸術的な画像と文字の自動合成を可能にする新たなGAN

GANは著しい発展を遂げています。しかし、人間の要求に即座に対応することができる画像合成モデルは、いまだに多くありません。新しく発表された論文では、芸術的な文字変換を即座に行うGANモデル「Controllable Artistic Text Style Transfer via Shape-Matching GAN」が提案されています。このモデルは、イメージと文字の合成度合いを芸術的要素か読みやすさの要素の度合いで、双方向的に手動で調整することができます。

参考論文 : Controllable Artistic Text Style Transfer via Shape-Matching GAN

画像と文字はそれぞれ異なる性質を持っている

画像と文字はそれぞれ異なる性質を持っています。なぜなら、画像は”芸術的イメージ”を、文字は”読みやすさ”をそれぞれ重視している傾向があるからです。では、画像と文字の合成、例えば”S”という文字に”燃えているような”エフェクトを合成させる作業は自動化させることができるのでしょうか?

この論文では、画像とイメージを合成し、さらに実用性を考え「どの程度文字の原型を残して、イメージの度合いを強くするか」を操作可能なパラメータとして設定可能にします。このパラメータを調整することにより、即座に”文字の変形度合い”を変更することができます。テストでは、複数の画像イメージを一つの文字に合成することにも取り組んでいます。

イメージと文字の合成における難しさ

これまでの研究においても、画像イメージと文字の合成は試みられてきました。しかし従来のモデルでは、今回のように”単一”のイメージ画像を元に”ユーザーが満足行く度合い”での合成を行うには課題がありました。一つは、訓練データとなる十分なソースがないこと。もう一つは、画像の合成度合い(イメージと文字のバランス)は主観的なものであるため、必要に応じてどのような配分で合成すべきか異なるうえ、その度合いを測る指標がないことです。

論文では「スケッチモジュールシステム」と「文字とイメージの合成バランスの調整機能」を実現することで、2つの課題(ソースの確保と即座な調節)を解決しています。

モデル概要

大きく3つのタスクに分けて、画像と文字の合成を行っています。

(1)前処理

前処理段階では、与えられたイメージ画像からPhotoshopを用いて、イメージ画像の形のみを取り出します。次に、スケッチモジュールを用いてイメージ画像と類似した単純化画像を大量に生成し、学習用データとして扱います。

スケッチモジュールは、ソース不足を解決するため、単一の画像の入力を元に必要な数のデータを生成するために使われます。ガウスフィルターを用いて、単一の画像からある一定の分散、様々なパラメータにおいて元画像データを少しだけ単純化した画像データを生成します。これを繰り返すことにより、要求データに基づいたデータを複数生成し、ソース不足を解決します。

また、要求される合成度合いはシチュエーションによって様々なため、それらをパラメータによって即時に可変することで、ユーザーに最終的な調整を行わせます(シチュエーションに応じた”画像調整を”即座に”行うことが可能になります。)

 

(2)画像構成の設定(Glyph Network)

(1)で生成された学習用データを用いて、画像から特徴量抽出を行い、既存モデル「Style Net」を用いて画像データと文字イメージを合成します。さらに、調整を可能にするため、様々なパラメータにおいて合成を行い、どのパラメータ値(0~1の範囲で任意の値をとる)においても、元々の文字画像との損失(距離)が最小化されるように設定します。これにより、どのパラメータ値においても合成後の画像は”元々の文字を識別できる範囲で”変形するようになります。

Style Netに関する論文 : Perceptual Losses for Real-Time Style Transfer and Super-Resolution

 

(3)きめ細かさの設定 (Texture Network) 

最後に、この画像に色付けを行います。識別器での比較を繰り返しながら、入力である元々のイメージ画像と生成データの距離が最小化されるように計算を繰り返し、パラメータごとに生成する画像を決定します。これは、標準的画像類似問題(analogy problem)と考えることができ、従来のアルゴリズムを用いて解くことができます。

実験結果

モデルの合成性能を確かめるため、

1.文字と画像を1組ずつ合成
2.複数のイメージ画像を一つの文字に合成
3.パラメータを変化させることによる合成度合いの変化確認の各実験を行っています。

1.文字と画像を1組ずつ合成

モデルを用いて文字記号と画像イメージをそれぞれ適当なパラメータにおいて、合成した結果です。  どれも文字の原型を保ちつつも、画像のイメージをしっかりと表現した合成結果となっています。あくまでライターの主観的な評価になりますが、既存モデルの一つと比較してこのモデルの方が高精度に見えます。

 

2.複数のイメージ画像を一つの文字に合成

以下は、文字記号”Q”に花のイメージをベースとして、煙のエフェクトを合成させた画像になります。文字周りの花のイメージと、煙の色合い、ぼやかしが細かく合成されており、再現度の高さが分かります。

3.パラメータを変化させることによる合成度合いの変化確認

最後に、画像合成度のパラメータを変化させることにより、文字とイメージ画像のバランスを変化させました。文字優先度をあげればあげるほど、字体が崩れ画像のイメージ表現が強くなっていることが見て取れます。また、中国語文字のため分かりにくくはありますが、文字優先度を最低まで下げたとしても文字として認識できる範囲で字体が崩されていることもわかります。

 

結果と今後の展望

このモデルでは、イメージと文字の合成度合いを芸術的要素か読みやすさの要素の度合いで、双方向的に手動で調整することが可能です。

著者は、今後この技術を発展させて、より高精度なイメージと文字の合成のほか、動画にイメージを合成することなどにも可能であると述べています。イメージと文字の合成は汎用性が高く、例えば広告やポスターの自動生成への実用化などがすぐにでも期待されるのではないでしょうか。

以下は、このモデルを利用した画像が含まれたポスターの例です。非常にクオリティが高く、これらが自動的に調整可能であるとすれば有用であることは間違いないと思います。