意味的な構造を捉えたスタイル変換！より美しく画像を変換する手法の登場

論文 2019年10月02日

3つの要点

✔️画像内の意味的な構造を捉えるスタイル変換の手法を提案
✔️グラフカットを用いて特徴量をクラスタリングし、クラスタごとに特徴量の統計量をマッチング
✔️定性的な評価において、もっとも評価が高い変換を実現

意味的な構造を捉えるスタイル変換

ニューラルネットワークを用いたスタイル変換の手法の多くは、画像の特徴量マップの大域的な特徴量を用いて実現されています。たとえば、AdaINという手法においては、コンテンツ画像の、特徴量マップのチャンネルごとの平均と分散を、スタイル画像のそれと合わせ、それをデコードすることで実現されてきました。

ですが、AdaINに代表されるような特徴量マップのチャンネルごとの統計量を用いた画像変換は、画像内の意味的な構造を捉えることは出来ていません。なぜなら、特徴量マップの大域的な特徴量を用いているため、画像内のどこにどのような物体があるか、という情報を無視してしまっています。これが原因となり、画像内の背景部分に対しても、物体に対しても全く同じような変換が行われてしまうなど、より良い変換を実現できなくなってしまう可能性があります。