異なるテクスチャを自然にブレンドする画像生成システム

論文 2019年06月12日

【論文】Texture Mixer: A Network for Controllable Synthesis and Interpolation of Texture

異なるテクスチャを自然にブレンドしたイメージ画像

自然に存在する多くの材料には、局所的な外観の変化や、複雑な遷移が見られます。たとえば、砂浜で小石をよく見ると、小石のサイズ、密度、濡れているかどうかで色が変わる可能性があります。しかし、人間が画像内の素材を編集した場合、自然界で見られるような豊かで空間的に変化する素材の組み合わせを作成することは非常に困難です。

特に、テクスチャは複雑な外観を持つため、ピクセルドメイン上で自然な推移を持つ画像作成することは困難で、目に見える継ぎ目や、明らかな繰り返しなどの不快なアーティファクトが発生する可能性が高いです。本稿では、GANを使用して、2つの異なるタイプのテクスチャパターンを自然にブレンドし画像生成するモデルTexture Mixerを提案しています。

例えばこのモデルを使用して任意のテクスチャをテキストに合成することもできます。

異なった動物の毛皮のテクスチャを自然に配合することもできます。

犬+くま、くま、くま

こちらはキリンとヒョウの毛皮のテクスチャを混ぜ合わせたものです。

こちらは虎とシマウマの毛皮を合成したものです。

Texture Mixer

任意の二つのテクスチャを入力をすると、まず潜在空間に射影することでテンソルに変換します。テンソルを操作した後、もう一度画像に変換することでテクスチャの合成を再現します。

テンソル空間ではそれれぞれ大局的スケールと局所的スケールにわけて操作します。局所的スケールに関してはランダム化などを行うことにより、つなぎ目に不自然さがなくなるような、補完を行います。大局的なスケールからは大まかな特徴量を抽出し、各テクスチャを線型的に合成します。最後に、操作したテンソルをジェネレータGに入力して、新しくブレンドされたテクスチャ画像を取得します。

また、損失関数に関しては、最終的に合成されたテクスチャからランダムに選ばれた部分とそれに対応する入力画像の乖離度を比較し、損失関数として最適化を行っています。

柔軟なユーザインタラクション

テスト時には、さまざまなシナリオで任意のテクスチャを合成することができます。

このシナリオでは、ユーザーが指定したソーステクスチャ領域をイメージドメイン内に文字として配置しています。
上の合成されたソースイメージは、外側の四隅にあるテクスチャから作成された1024×1024のパレットです。下部には、パレットからサンプリングしたさまざまなテクスチャを使用した512×2048の文字ペイントが表示されています。

さらに、生成された任意の2つのテクスチャを混ぜたイメージを徐々に溶解して元に戻すことができます。上の図では左から右に移行するにつれて徐々に元に戻っていく様子が確認できます。

こちらは、このタスクを実用的で創造的な応用である動物交雑に一般化したものです。
1つの画像中の2つの整列した動物イメージとそれらの遷移領域上に1つの穴を与えて、穴に隣接するソーステクスチャパッチをサンプリングし、テクスチャ間の空間補間を行うことができます。

評価

また、このアプローチの精度を確かめるために、Image Melding 、AdaIN 、WCT 、PSGAN などと比較しています。論文では滑らかで、継ぎ目や切れ目のような違和感がなく外観の変化が緩やかなのが、”良いミックス”と定義していますが、いずれも本アプローチ（一番最後の列）が一番自然にミックスできてるように見えます。