【Versatile Diffusion】テキストと画像を統合的に扱う拡散モデル

Diffusion Model 2023年12月21日

3つの要点
✔️ テキストと画像を統合的に扱うマルチモーダル拡散モデル
✔️ CLIPを用いてテキストと画像のコンテキスト情報を取得
✔️ Global Layerによってモデル全体の情報を共有

Versatile Diffusion: Text, Images and Variations All in One Diffusion Model
written by Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi
(Submitted on 15 Nov 2022 (v1), last revised 23 Mar 2023 (this version, v3))
Comments: Github link: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

本研究では、画像とテキストのマルチモーダル拡散モデルである「Versatile Diffusion（VD）」が提案されました。このモデルを用いることで、以下のようなタスクが実現できます。

Text-to-Image
Image-to-Text
Image-to-Image
Text-to-Text

要するに、画像とテキストを用いたAny-to-Anyが可能になるのです。また、「この絵を油絵にして」のようにプロンプトを入力することで、画像の編集をすることも可能です。

本研究のVersatile Diffusionは、以下のHugging Faceのデモページで、簡単に実行することができます。本論文で記載されているすべてのタスクで実行できるので、興味がある方はぜひ試してみてください。

https://huggingface.co/spaces/shi-labs/Versatile-Diffusion

さっそく、モデルの内部を見ていきましょう。なお、これ以降ではVersatile Diffusionを「VD」と表現します。

Versatileのモデルアーキテクチャ

VDの核となる技術は、画像やテキストのコンテキストを条件として、様々な形式のデータを生成できる「マルチフロー・マルチモーダル拡散モデル」です。

ここで、「シングルフロー」とは、「単一モダリティm」のコンテクストを用いて、「単一モダリティn」のデータを生成することを指します。Stable DiffusionやImagenなどの、近年話題の「Text-to-Image」は、VDにおける単一フローの定義と同じです。

VDの場合、Text-to-Imageだけではなく、様々な生成タスクをこなせるため、マルチフローと言えるでしょう。

以下の「VDの1ステップ分の逆拡散過程の図」で示されているように、VDのモデルは「Global Layer」「Data Layer」「Context Layer」の3つで構成されます。

各層の振る舞いと「Stable Diffusionのモデルにおいて対応する層」を、以下の表にまとめています。

層	振る舞い	Stable Diffusionで例えると
Global Layer	・フローに依存せず常に活性化・異なるフロー間でのパラメータの共有・時間情報の統合	時間埋め込み層
Data Layer	ネットワークが「対応する出力モダリティ」を生成したときに活性化	Residual Block（時間による条件付け）
Context Layer	「対応するコンテキストモダリティ」が入力されたときに活性化	Cross Attention層（テキストによる条件付け）

層

振る舞い

Stable Diffusionで例えると

Global Layer

・フローに依存せず常に活性化

・異なるフロー間でのパラメータの共有

・時間情報の統合

時間埋め込み層

Data Layer

ネットワークが「対応する出力モダリティ」を生成したときに活性化

Residual Block（時間による条件付け）

Context Layer

「対応するコンテキストモダリティ」が入力されたときに活性化

Cross Attention層（テキストによる条件付け）

Text-to-Imageを例に挙げると、x_tは画像用のData Layerとテキスト用のContext Layerに送られ、次のステップの結果x_t-1が生成されます。同様に、Image-to-Imageであれば、x_tは画像用のData Layerと画像用のContext Layerに送られます。

こうして、VDの全体のネットワークは、以下の図のように構成されいます。