MirrorGANが登場、text-to-imageにおけるテキストとビジョンの間の意味的一貫性の解決

今回紹介するのは先月発表されたGANを使ったテキスト生成画像(text to image)の研究です。論文では通常のtext to imageのタスクにimage to textをくっつけ再記述することによってtext2imag生成するという新しいミラーリング構造の提案がされています。

【論文】MirrorGAN: Learning Text-to-image Generation by Redescription

T2I(text to image)とI2T(image to text)を統合 

“text-to-image”と呼ばれるタスクは,テキストから、そのテキストにあう画像を生成することを目指します。

与えられたテキスト記述から画像を生成することには大きく2つの目標があります。

それは視覚的リアリズムと意味的一貫性です(あくまでもこの論文ではそういわれている)。

GAN を使用して高品質で視覚的に現実的な画像を生成することにおいて著しい進歩がなされてきましたが、テキスト記述と視覚的内容との間の意味的一貫性を保証することは依然として挑戦的でです。この問題に対処するために、MirrorGANと呼ばれるT2I(text to image)とI2T(image to text)を一緒にモデリングするための統一されたフレームワークを提案します。
MirrorGANはT2IとI2Tの両方を統合することによってミラー構造を具体化しています。つまり再記述によってT2I生成を学ぶという考えを利用しています。

これまでのテキスト生成画像

text 2 image

テキスト生成画像(T2I)は、多くの用途において大きな可能性を秘めており、自然言語処理およびコンピュータビジョンの分野において活発な研究分野となっています。

基本的なGANとは違い、T2I生成はテキスト記述を条件としています。これらの方法はすべて、生成された画像と対応するテキストのペア、および真実画像と対応するテキストのペアを区別するためにGANの識別機を​​使用します。

しかしながら、テキストと画像との間の地域差のために、識別機だけに頼って、各ペア内の意味上の一貫性をモデル化することは難しく非効率的です。

Attention

近年、この問題に対応して、異なる画像領域を生成するときに異なる単語に焦点を合わせるようにジェネレータを導くためにAttentionを使用してきました。(Attn ganなど)

Attentional Generative Adversarial Network(AttnGAN)

Attention(注意モデル)は、コンピュータビジョンや自然言語処理、例えばオブジェクト検出、画像/ビデオキャプション、視覚質問応答で広く利用されてきました。Attentionは、画像の中で空間的に、あるいは言語の中で時間的に、あるいはビデオまたは画像テキスト関連のタスクにおいてさえも、モデル化することができます。

ただし、テキストとイメージのモダリティには多様性があるため、単語レベルのAttentionだけを使用しても、グローバルな意味の一貫性は保証されません。

本提案:MirrorGAN

ミラー構造

T2I生成は、所与の画像のテキスト記述を生成する、または画像からテキストへの生成(I2T)の逆問題として考えることができます。各タスクが2つのドメインの基礎となるセマンティクスをモデル化して調整する必要があることを考慮すると、基礎となる2つの規則を利用するために統一されたフレームワークで2つのタスクをモデル化することは自然かつ妥当です。

図1(a)および(c)に示されるように、T2Iによって生成された画像が所与のテキスト記述と意味論的に一致する場合、I2Tはそれが所与のテキスト記述と全く同じ意味論を有するべきです。言い換えれば、結果として得られる画像は、基礎となるテキストの意味を正確に反映した鏡のように見えるはずです。

この観察に基づいて、本論文はT2I生成を改善するための新しいフレームワーク、MirrorGANを提案しています。これは再記述によりT2I生成を学習するという考えを利用しています。

 

MirrorGANの3つのコアモジュールの構造

図2に示すように、MirrorGANはT2IとI2Tを統合することによってミラーリング構造を具体化しています。

MirrorGANでは、3つのモジュールからなるアイデアを利用しています。

・セマンティックテキスト埋め込みモジュール(STEM)

・カスケード画像生成グローバル – ローカル同時注意モジュール(GLAM)

・セマンティックテキストの複製と整列モジュール(STREAM)

1、STEM:セマンティックテキスト埋め込みモジュール

STEMではまず単語レベルと文レベルの埋め込みを生成します。最初に、テキスト埋め込みモジュールを導入して、所与のテキスト記述をローカルワードの特徴とグローバルセンテンスの特徴に埋め込見ます。

下の図の左端の部分で示すように、RNNは与えられたテキスト記述Tから意味的な埋め込みを抽出するのに使われます。

 

2、GLAM:画像生成のためのグローバル – ローカル協調モジュール

埋め込まれたテキスト特徴表現を向上させるための画像キャプションについて、Attentionが提案されてきました。最近では異なった画像領域を生成するとき、異なった単語に集中するためにジェネレータを導くようなAttentionモデルが提案されています。本稿では、現実的な画像を生成するうえで優れたパフォーマンスを発揮するため「Attngan」で採用した基本構造を使用します。

ただし、単語レベルの注意だけを使用しても、グローバルな意味の一貫性は保証されません。グローバルな文レベルの注意も各段階で考慮されるべきです。

そこでグローバル – ローカルのコラボレーションを提案しています。GLAMは、大まかなスケールから細かいスケールまでターゲットイメージを生成するため3つの画像生成ネットワークを連続的に持ち、ローカルワードアテンションとグローバルセンテンスアテンションの両方を活用して、生成されたイメージの多様性と意味的一貫性を徐々に高めます。

3、STREAM:セマンティックテキストの再生成と整列モジュール

MirrorGANでは、T2Iに加え後半部分でI2T(image to text)のタスクがくっついてきます。

STREAMは、生成されたイメージからテキストの説明を再生成します。

広く使用されているエンコーダデコーダベースの画像ヘッダフレームワークが基本的なSTREAMアーキテクチャとして採用されています。

画像エンコーダはImageNetで事前に訓練されたCNNであり、デコーダはRNNです。GLAMの最終段生成器によって生成された画像は、このネットワークに入力されます。

結果

それでは、MirrorGANのパフォーマンスはどのくらい強いのでしょうか。

ここではMirrorGAN、GAN-INT-CLS、GAWWN、StackGAN、StackGAN ++、PPGN、AttnGANを含む他の最先端のT2Iメソッドとの比較を行っています。

使用されるデータセットは、現在の主流のデータセット、COCOデータセットとCUBデータセットです。


表1 CUBおよびCOCOデータセットに対するMirrorGANと他の高度な方法の結果の比較

表2 CUBおよびCOCOデータセットにおけるMirrorGANおよびAttnGANのR精度スコア

データセットに対する実験は、視覚的リアリズムと意味的一貫性の両方に関して、他の代表的な最先端の方法に対するMirrorGANの優位性を示しています。

ここでは視覚的リアリズムと意味的一貫性において評価されていますがGANの生成画像の評価方法が確立されていないように、実は、何がリアルか、意味が一貫しているの定義などは実は曖昧なままです。