最新AI論文をキャッチアップ

GenTron: 画像生成、動画生成向けのDiffusion Transformers

GenTron: 画像生成、動画生成向けのDiffusion Transformers

Image generation

3つの要点
✔️ トランスフォーマーが多くの分野で広く使われている一方で、画像生成の最強モデルである拡散モデルは主にCNNベースのU-Netを活用している
✔️ トランスフォーマーベースの拡散モデル「GenTron」を提案

✔️ 一般的な評価指標に加え、人間の評価でも拡散モデルの最先端モデルSDXLを上回っている

GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation
written by Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua
(Submitted on 7 Dec 2023)

Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

拡散モデルは画像生成、ビデオ制作、オーディオ合成、コード生成など、多岐にわたるコンテンツ作成分野で顕著な進歩を遂げています。しかし、これらの分野では一般的に畳み込みU-Netアーキテクチャが使用されています。そのため、自然言語処理やコンピュータビジョン認識の分野で支配的なトランスフォーマーを適用することで、さらに高いクオリティの画像生成やビデオ生成が期待されています。

今回の解説論文では、トランスフォーマーを活用した拡散モデルであるGenTronを提案します。メインな方針はDiffusion Transformers(DiTs)を改善することです。まず、クラスからテキスト条件付きの画像生成へ機能を拡張します。また、トランスフォーマーアーキテクチャのスケーラビリティを活用し、視覚品質の向上を目指してGenTronを大幅にスケールアップします。さらに、GenTronは画像生成モデルからビデオ生成モデルへと進化し、各トランスフォーマーブロックに時間的self-attention層を加えることで、ビデオ拡散モデル用のトランスフォーマーを提案します。また、ビデオ品質を向上させるための新しいモーションフリーガイダンスも提案します。

実験では、一般的な評価指標に加えて、人間による評価では、GenTronは拡散モデルのSOTAであるSDXLを上回り、視覚的品質では51.1%の勝率(引き分け率は19.8%)、テキストアライメントでは42.3%の勝率(引き分け率は42.9%)を達成しました。

提案手法

テキストからの画像生成

テキストからの画像生成(T2I)には、二つの重要な要素が含まれています。まず、生のテキストをテキストエンベッディングに変換するテキストエンコーダの選択、そして次に、これらのエンベッディングを拡散プロセスに統合する方法です。

テキストエンコーダに関して、マルチモーダルモデルからのテキストタワーやCLIP、大規模言語モデルであるFlan-T5などの代表的なモデルを挙げられます。本論文では、これらの言語モデルの効果を検証するために、各モデルを独立してGenTronに統合し、それぞれのパフォーマンスを評価します。 

図1. テキスト埋め込みの統合アーキテクチャ

エンベッディングされたテキストを拡散プロセスに統合する方法に関して、図1の2つの方法を検討します。1つ目はAdaptive layernorm (adaLN)です。図1.aに示されているように、条件付け埋め込みを特徴チャネルの正規化パラメータとして統合します。StyleGANなどの条件付き生成モデルで広く使用されているadaLNと同様です。

2つ目の手法はCross-attentionです。図2bに示されているように、画像特徴がクエリとして機能し、テキスト埋め込みがキーとバリューとして機能します。この設定により、attention機構を通じて画像特徴とテキスト埋め込みの間で直接的な相互作用が可能になります。

モデルのスケールアップ

モデルのスケールアップに関して、次の3つの重要な側面を拡張することに焦点を当てました:トランスフォーマーブロックの数(深さ)、パッチ埋め込みの次元(幅)、およびMLPの隠れ次元(MLP幅)。GenTronモデルの仕様と構成は表1に詳述されています。特に、GenTron-G/2モデルは30億以上のパラメータを持っています。これはこれまでに開発された中で最大のトランスフォーマーベースの拡散モデルです。

表1. GenTronモデルの構成詳細

テキストからのビデオ生成

図2. ビデオ生成モデルのアーキテクチャ

TempSelfAttn

ビデオ生成タスクに対して、モデルは図2のトランフォーマーブロックから構成されます。従来のアプローチと異なり、U-Netに時間的畳み込み層と時間的トランスフォーマーブロックの両方を追加するのではなく、このの方法では、各トランスフォーマーブロックに軽量な時間的self-attention層(TempSelfAttn)のみを統合します。図2に示されているように、TempSelfAttn層はクロスアテンション層の直後、MLP層の前に配置されます。さらに、TempSelfAttn層に入る前にクロスアテンション層の出力を再形成し、通過後に元の形式に戻すことで、出力を修正します。

・モーションフリーガイダンス

動画生成の学習中に時間的側面の最適化に集中すると、空間的な視覚的品質が不注意に損なわれ、その結果、生成された映像の全体的な品質が低下するという課題があります。この課題を解決するために、モーションフリーガイダンスを提案します。このアプローチはclassifier-freeガイダンスと類似して、条件付きテキストを空の文字列に置き換えます。違いは、確率Pで時間的注意を無効にするために単位行列を使用する点です。

単位行列は図2(Motion-Free Mask)に示されており、対角線が1で埋められ、その他の位置はすべて0になっています。この構成により、時間的self-attetionは単一のフレーム内で機能するように制限されます。さらに、時間的自self-attetionは時間モデリングの唯一のオペレーターです。したがって、モーションフリーの注意マスクを使用するだけで、ビデオ拡散プロセスにおける時間モデリングを無効にすることができます。

実験

各成分の効果を検証

表2. 各成分の効果の検証結果

Cross attention vs. adaLN

実験では、自由形式のテキスト条件付けを扱う際のadaLNの限界が明らかになりました。この欠点は図3に明示されており、adaLNがパンダの画像を生成しようとする試みが不十分であり、Cross attentionが明らかな優位性を示しています。これは表2の最初の2行でも定量的に検証されており、Cross attentionが評価されたすべての指標で一貫してadaLNを上回っています。

図3. Cross attentionとadaLNの比較

テキストエンコーダの比較

表2では、T2I-CompBenchでさまざまなテキストエンコーダーを評価します。結果から、GenTron-T5XXLが3つのメトリックでGenTronCLIP-Lよりも優れたパフォーマンスを示し、他の2つのメトリックでは同様のパフォーマンスを示します。これは、T5埋め込みが構成能力に優れていることを示唆しています。一方、CLIP-LとT5XXLの埋め込みを組み合わせると、GenTronのパフォーマンスが向上し、モデルがそれぞれのテキスト埋め込みタイプの異なる利点を活用する能力を示しています。

先行研究との比較

表3.先行研究との比較結果

本説では、上に検証したCross attention、CLIP-LとT5XXLの組み合わせの効果に基づいて、最終モデルを構築し、先行研究との比較を行います。

表3では、T2I-CompBenchからのアラインメント評価結果を示しています。提案手法は、属性のバインディング、オブジェクトの関係、および複雑な構成など、すべての領域で優れたパフォーマンスを示しています。これは、構成の生成能力が高まっており、特に色のバインディングに優れていることを示しています。特に、提案手法は先行研究のSOTAを7%以上上回っています。

人間による評価

図4.人間による評価結果

図4では、PartiPrompt2からの標準プロンプトを使用して、提案手法とLDXLの両方を使って100枚の画像を生成し、シャッフル後にブラインドで人々の好みを尋ねました。視覚的品質とテキストの信頼性の比較について、合計3000件の回答を得ました。この結果、提案手法が明らかに優れた選択肢として浮かび上がりました。

テキストからビデオ生成の結果

図5.ビデオ生成結果の例。
使用したプロンプト:“Teddy bear walking down 5th Avenue front view beautiful sunset”, “A dog swimming”, “A giant tortoise is making its way across the beach”, and “A dolphin jumping out of the water”.

図5では、GenTron-T2Vによって生成されたビデオです。視覚的に印象的なだけでなく、時間的にも一貫性が高いクォリティーを表しています。特に、生成動画の一貫性に関して、提案したモーションフリーガイダンスは非常に有効です。図6に示されているように、GenTron-T2VがMFGと統合された場合、プロンプトで言及された中心のオブジェクトに重点を置く傾向が顕著であることが明確に示されています。具体的には、そのオブジェクトは通常、生成されたビデオでより詳細に描かれ、より目立ち、中心的な位置を占め、ビデオフレーム全体で視覚的な焦点となります。

図6.モーションフリーガイダンスの効果検証実験
プロンプト:“A lion standing on a surfboard in the ocean in sunset”

まとめ

今回の記事では、画像とビデオの生成のためのトランスフォーマーベースの拡散モデルであるGenTronを紹介しました。テキストエンコーダ、埋め込みされたテキストを拡散プロセスに統合する方法の調査、そしてビデオ生成のためのTempSelfAttnとモーションフリーガイダンスを提案することで、一般的な評価指標に加え、人間の評価でも拡散モデルのSOTAを上回っています。この結果より、GenTronはトランスフォーマーを拡散モデルに適用する際のギャップを埋めることに役立ち、さまざまな領域での広範な採用を促進するのを期待できます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする