【UniD3】画像と文章を統合的に扱うマルチモーダル離散拡散モデル
3つの要点
✔️ Any-to-Anyを実現するマルチモーダル拡散モデル
✔️ 画像と文章を1つの離散トークンとして(統合的に)扱う
✔️ デノイジングにMutual Attention付きのTransformerを導入
Unified Discrete Diffusion for Simultaneous Vision-Language Generation
written by Minghui Hu, Chuanxia Zheng, Heliang Zheng, Tat-Jen Cham, Chaoyue Wang, Zuopeng Yang, Dacheng Tao, Ponnuthurai N. Suganthan
(Submitted on 27 Nov 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
これまでテキストからの画像生成や、スケッチからの画像生成、画像からの動画生成など、様々なクロスモーダルモデルが、急速に発展してきました。しかし、それらは「テキスト→画像のみ」など、すべて特定のモダリティに限定された生成タスクを行うものです。
そこで本研究では、異なるモダリティを統合的に扱うImage-Languageモデル「UniD3」を用いたマルチモーダル生成手法が提案されました。この手法では、任意のモーダル入力に対して、任意のモーダルを出力できる「Any-to-Any」を実現できます。
上図のように、UniD3によって「テキスト→画像」だけでなく、「画像→テキスト」「条件無しImage-Text生成」も可能になるのです。
手法
さっそく、どのようにしてImage-TextのAny-to-Anyを実現しているのか、見ていきましょう。UniD3の全体的なパイプラインは、以下の通りです。
具体的には、ImageとTextをそれぞれのエンコーダ「dVAE」と「BPE」を用いて、離散トークンシーケンスに圧縮することから始めます。
次に、Fusion embeddingを用いて、2つのトークンを連結し、同じ空間の埋め込み「Fused Embedding」を計算します。こうすることで、画像埋め込みとテキスト埋め込みを、1つのトークンとして、統合的に扱うことが可能になるのです。
そして、先ほどのFused Embeddingに対して、拡散過程においてマルコフ遷移行列によって拡散し、逆拡散過程において「Mutual Attention付きUnified Transformer」によってデノイジングを行います。
そうして再構成したFused Embeddingを、再び画像埋め込みとテキスト埋め込みに分けることで、両モーダルの個別のトークンを得ることが可能です。
Mutual Attentionの導入
本研究では、デノイジングのためのUnified Transformerにおいて、Mutual Attentionという、新たな注意機構を導入しています。
Unified Transformerは、複数のTransformerブロックで構成されており、各ブロックにはSelf Attention、二つのCross Attention、およびFeed forward Layerが含まれています。
ここで、通常のSelf Attention(自己注意機構)では、一つのモダリティ内の要素間の関係を捉えるのには有効ですが、異なるモダリティ間の関連性を捉えるのは苦手です。
そこで本研究では、画像トークンとテキストトークンが結合された状態でも、モダリティ間の関連性を捉えるために、Mutual Attention(相互注意機構)を導入しています。
Mutual Attention Blockの図は、以下の通りです。
このブロックでは、まず異なる画像トークンとテキストトークンが結合された「ノイズ付きFused Hidden State」を入力として受け取ります。
次に、Self Attentionを適用し、各ブロックは、同シーケンス内での関連性を捉えます。その後、再び異なるモーダルのトークンに分解され、二つのCross Attentionに通されます。こうすることで、異なるモダリティ間の関連性が捉えられます。
その後、両トークンは再び結合され、Feed forward Layerを通り、次のTransformerブロックに渡されます。これを繰り返すことで、デノイジングが進み、最終的に「ノイズの無いFused Hidden State」を得ることができるのです。
ちなみに、ノイズ付きトークンには、[MASK]トークンがあることから、Mask推定をデノイジングとして機能させているのだと思われます。
実験結果
UniD3の性能を調べるために、以下の実験が実行されました。
- 条件無し生成
- 条件付き生成
実験では、CUB-200(鳥の種類の画像とテキストが含まれるデータセット)とMSCOCO(多様な画像とキャプションが含まれるデータセット)が使用されています。
条件無し生成の結果
条件無し生成での生成結果は、以下の通りです。
この時、画像とテキストは同時に生成されます。生成された画像とテキストの品質は良く、説明テキストと画像との整合性が保たれていますね。
条件付き生成の結果
条件付き生成の客観的評価には、以下の指標が用いられました。
- FID:画像のリアリティ性・多様性
- IS:画像のリアリティ性・多様性
- BLEU-4:テキストキャプションの精度
- METEOR:テキストキャプションの精度
- SPICEスコア:テキストキャプションの精度
- CLIPスコア:画像とテキストの整合性
客観的な指標をもとに、他のモデルと比較した結果が以下の通りです。
応用
UniD3を用いることで、画像のインペインティングやキャプショニングにも応用できます。その結果の例を、以下に示します。
キャプショニングの例。
Ref. Captionsは、もともとのデータセットのテキストです。Samplesが、UniD3のImage-to-Textによって生成されたキャプションです。
インペインティングの例。
左の画像中の黄土色の部分や、テキストの打ち消し線は、MASKを意味します。インペインティングでは、このMASK部分のデータを補完します。インペインティングの結果は、右側の4つです。
まとめ
本研究は、マルチモーダル拡散モデルを用いた「Any-to-Any」を実現した、先駆けと言えるでしょう。このような研究を応用すれば、音声や音楽など、その他のモーダル入力・生成も可能になるはずです。
今後もAny-to-Anyモデルの発展に、目が離せません。
この記事に関するカテゴリー