【UniD3】画像と文章を統合的に扱うマルチモーダル離散拡散モデル

Diffusion Model 2023年12月14日

3つの要点
✔️ Any-to-Anyを実現するマルチモーダル拡散モデル
✔️ 画像と文章を1つの離散トークンとして（統合的に）扱う
✔️ デノイジングにMutual Attention付きのTransformerを導入

Unified Discrete Diffusion for Simultaneous Vision-Language Generation
written by Minghui Hu, Chuanxia Zheng, Heliang Zheng, Tat-Jen Cham, Chaoyue Wang, Zuopeng Yang, Dacheng Tao, Ponnuthurai N. Suganthan
(Submitted on 27 Nov 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

これまでテキストからの画像生成や、スケッチからの画像生成、画像からの動画生成など、様々なクロスモーダルモデルが、急速に発展してきました。しかし、それらは「テキスト→画像のみ」など、すべて特定のモダリティに限定された生成タスクを行うものです。

そこで本研究では、異なるモダリティを統合的に扱うImage-Languageモデル「UniD3」を用いたマルチモーダル生成手法が提案されました。この手法では、任意のモーダル入力に対して、任意のモーダルを出力できる「Any-to-Any」を実現できます。

上図のように、UniD3によって「テキスト→画像」だけでなく、「画像→テキスト」「条件無しImage-Text生成」も可能になるのです。

手法

さっそく、どのようにしてImage-TextのAny-to-Anyを実現しているのか、見ていきましょう。UniD3の全体的なパイプラインは、以下の通りです。

具体的には、ImageとTextをそれぞれのエンコーダ「dVAE」と「BPE」を用いて、離散トークンシーケンスに圧縮することから始めます。

次に、Fusion embeddingを用いて、2つのトークンを連結し、同じ空間の埋め込み「Fused Embedding」を計算します。こうすることで、画像埋め込みとテキスト埋め込みを、1つのトークンとして、統合的に扱うことが可能になるのです。

そして、先ほどのFused Embeddingに対して、拡散過程においてマルコフ遷移行列によって拡散し、逆拡散過程において「Mutual Attention付きUnified Transformer」によってデノイジングを行います。

そうして再構成したFused Embeddingを、再び画像埋め込みとテキスト埋め込みに分けることで、両モーダルの個別のトークンを得ることが可能です。

Mutual Attentionの導入

本研究では、デノイジングのためのUnified Transformerにおいて、Mutual Attentionという、新たな注意機構を導入しています。

Unified Transformerは、複数のTransformerブロックで構成されており、各ブロックにはSelf Attention、二つのCross Attention、およびFeed forward Layerが含まれています。

ここで、通常のSelf Attention（自己注意機構）では、一つのモダリティ内の要素間の関係を捉えるのには有効ですが、異なるモダリティ間の関連性を捉えるのは苦手です。

そこで本研究では、画像トークンとテキストトークンが結合された状態でも、モダリティ間の関連性を捉えるために、Mutual Attention（相互注意機構）を導入しています。

Mutual Attention Blockの図は、以下の通りです。

このブロックでは、まず異なる画像トークンとテキストトークンが結合された「ノイズ付きFused Hidden State」を入力として受け取ります。

次に、Self Attentionを適用し、各ブロックは、同シーケンス内での関連性を捉えます。その後、再び異なるモーダルのトークンに分解され、二つのCross Attentionに通されます。こうすることで、異なるモダリティ間の関連性が捉えられます。

その後、両トークンは再び結合され、Feed forward Layerを通り、次のTransformerブロックに渡されます。これを繰り返すことで、デノイジングが進み、最終的に「ノイズの無いFused Hidden State」を得ることができるのです。

ちなみに、ノイズ付きトークンには、[MASK]トークンがあることから、Mask推定をデノイジングとして機能させているのだと思われます。

実験結果

UniD3の性能を調べるために、以下の実験が実行されました。

条件無し生成
条件付き生成

実験では、CUB-200（鳥の種類の画像とテキストが含まれるデータセット）とMSCOCO（多様な画像とキャプションが含まれるデータセット）が使用されています。

条件無し生成の結果

条件無し生成での生成結果は、以下の通りです。

この時、画像とテキストは同時に生成されます。生成された画像とテキストの品質は良く、説明テキストと画像との整合性が保たれていますね。

条件付き生成の結果

条件付き生成の客観的評価には、以下の指標が用いられました。

FID：画像のリアリティ性・多様性
IS：画像のリアリティ性・多様性
BLEU-4：テキストキャプションの精度
METEOR：テキストキャプションの精度
SPICEスコア：テキストキャプションの精度
CLIPスコア：画像とテキストの整合性

客観的な指標をもとに、他のモデルと比較した結果が以下の通りです。

応用

UniD3を用いることで、画像のインペインティングやキャプショニングにも応用できます。その結果の例を、以下に示します。

キャプショニングの例。

Ref. Captionsは、もともとのデータセットのテキストです。Samplesが、UniD3のImage-to-Textによって生成されたキャプションです。

インペインティングの例。

左の画像中の黄土色の部分や、テキストの打ち消し線は、MASKを意味します。インペインティングでは、このMASK部分のデータを補完します。インペインティングの結果は、右側の4つです。

まとめ

本研究は、マルチモーダル拡散モデルを用いた「Any-to-Any」を実現した、先駆けと言えるでしょう。このような研究を応用すれば、音声や音楽など、その他のモーダル入力・生成も可能になるはずです。

今後もAny-to-Anyモデルの発展に、目が離せません。

この記事に関するカテゴリー

Nakata

【UniD3】画像と文章を統合的に扱うマルチモーダル離散拡散モデル

はじめに

手法

Mutual Attentionの導入

実験結果

条件無し生成の結果

条件付き生成の結果

応用

まとめ

【PIDM】物理的正則化付き拡散モデル

【PIDM】物理的正則化付き拡散モデル

【LDDGAN】最高速の推論が可能な拡散モデル

【LDDGAN】最高速の推論が可能な拡散モデル

潜在拡散モデルは必ずしも「サイズを大きくすれば良い」というわけではない

潜在拡散モデルは必ずしも「サイズを大きくすれば良い」というわけではない

【MusicLDM】盗作のリスクが低いText-to-Musicモデル

【MusicLDM】盗作のリスクが低いText-to-Musicモデル

【AudioLDM】Latent Diffusionを用いたText-to-Audioの生成モデル

【AudioLDM】Latent Diffusionを用いたText- ...

【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデル

【CoDi】ほぼ全てのモダリティを扱えるAny-to-Anyの拡散モデ ...