最新AI論文をキャッチアップ

【UniD3】画像と文章を統合的に扱うマルチモーダル離散拡散モデル

【UniD3】画像と文章を統合的に扱うマルチモーダル離散拡散モデル

Diffusion Model

3つの要点
✔️ Any-to-Anyを実現するマルチモーダル拡散モデル
✔️ 画像と文章を1つの離散トークンとして(統合的に)扱う

✔️ デノイジングにMutual Attention付きのTransformerを導入

Unified Discrete Diffusion for Simultaneous Vision-Language Generation
written by Minghui HuChuanxia ZhengHeliang ZhengTat-Jen ChamChaoyue WangZuopeng YangDacheng TaoPonnuthurai N. Suganthan
(Submitted on 27 Nov 2022)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

これまでテキストからの画像生成や、スケッチからの画像生成、画像からの動画生成など、様々なクロスモーダルモデルが、急速に発展してきました。しかし、それらは「テキスト→画像のみ」など、すべて特定のモダリティに限定された生成タスクを行うものです。

そこで本研究では、異なるモダリティを統合的に扱うImage-Languageモデル「UniD3」を用いたマルチモーダル生成手法が提案されました。この手法では、任意のモーダル入力に対して、任意のモーダルを出力できる「Any-to-Any」を実現できます。

上図のように、UniD3によって「テキスト→画像」だけでなく、「画像→テキスト」「条件無しImage-Text生成」も可能になるのです。

手法

さっそく、どのようにしてImage-TextのAny-to-Anyを実現しているのか、見ていきましょう。UniD3の全体的なパイプラインは、以下の通りです。

具体的には、ImageとTextをそれぞれのエンコーダ「dVAE」と「BPE」を用いて、離散トークンシーケンスに圧縮することから始めます。

次に、Fusion embeddingを用いて、2つのトークンを連結し、同じ空間の埋め込み「Fused Embedding」を計算します。こうすることで、画像埋め込みとテキスト埋め込みを、1つのトークンとして、統合的に扱うことが可能になるのです。

そして、先ほどのFused Embeddingに対して、拡散過程においてマルコフ遷移行列によって拡散し、逆拡散過程において「Mutual Attention付きUnified Transformer」によってデノイジングを行います。

そうして再構成したFused Embeddingを、再び画像埋め込みとテキスト埋め込みに分けることで、両モーダルの個別のトークンを得ることが可能です。

Mutual Attentionの導入

本研究では、デノイジングのためのUnified Transformerにおいて、Mutual Attentionという、新たな注意機構を導入しています。

Unified Transformerは、複数のTransformerブロックで構成されており、各ブロックにはSelf Attention、二つのCross Attention、およびFeed forward Layerが含まれています。

ここで、通常のSelf Attention(自己注意機構)では、一つのモダリティ内の要素間の関係を捉えるのには有効ですが、異なるモダリティ間の関連性を捉えるのは苦手です。

そこで本研究では、画像トークンとテキストトークンが結合された状態でも、モダリティ間の関連性を捉えるために、Mutual Attention(相互注意機構)を導入しています。

Mutual Attention Blockの図は、以下の通りです。

このブロックでは、まず異なる画像トークンとテキストトークンが結合された「ノイズ付きFused Hidden State」を入力として受け取ります。

次に、Self Attentionを適用し、各ブロックは、同シーケンス内での関連性を捉えます。その後、再び異なるモーダルのトークンに分解され、二つのCross Attentionに通されます。こうすることで、異なるモダリティ間の関連性が捉えられます。

その後、両トークンは再び結合され、Feed forward Layerを通り、次のTransformerブロックに渡されます。これを繰り返すことで、デノイジングが進み、最終的に「ノイズの無いFused Hidden State」を得ることができるのです。

ちなみに、ノイズ付きトークンには、[MASK]トークンがあることから、Mask推定をデノイジングとして機能させているのだと思われます。

実験結果

UniD3の性能を調べるために、以下の実験が実行されました。

  • 条件無し生成
  • 条件付き生成

実験では、CUB-200(鳥の種類の画像とテキストが含まれるデータセット)とMSCOCO(多様な画像とキャプションが含まれるデータセット)が使用されています。

条件無し生成の結果

条件無し生成での生成結果は、以下の通りです。

この時、画像とテキストは同時に生成されます。生成された画像とテキストの品質は良く、説明テキストと画像との整合性が保たれていますね。

条件付き生成の結果

条件付き生成の客観的評価には、以下の指標が用いられました。

  • FID:画像のリアリティ性・多様性
  • IS:画像のリアリティ性・多様性
  • BLEU-4:テキストキャプションの精度
  • METEOR:テキストキャプションの精度
  • SPICEスコア:テキストキャプションの精度
  • CLIPスコア:画像とテキストの整合性

客観的な指標をもとに、他のモデルと比較した結果が以下の通りです。

応用

UniD3を用いることで、画像のインペインティングやキャプショニングにも応用できます。その結果の例を、以下に示します。

キャプショニングの例。

Ref. Captionsは、もともとのデータセットのテキストです。Samplesが、UniD3のImage-to-Textによって生成されたキャプションです。

インペインティングの例。

左の画像中の黄土色の部分や、テキストの打ち消し線は、MASKを意味します。インペインティングでは、このMASK部分のデータを補完します。インペインティングの結果は、右側の4つです。

まとめ

本研究は、マルチモーダル拡散モデルを用いた「Any-to-Any」を実現した、先駆けと言えるでしょう。このような研究を応用すれば、音声や音楽など、その他のモーダル入力・生成も可能になるはずです。

今後もAny-to-Anyモデルの発展に、目が離せません。

 

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする