【CoMat】テキストとイメージの乖離を解消する

Computer Vision 2024年08月28日

3つの要点
✔️ 現在のテキスト-イメージ生成モデルの根本的な問題は、テキストトークンの注意活性化が不足していることにあると考えられます。
✔️ 提案手法のCoMatは、ImageCaptioningモデルを使ってテキスト-イメージ整合性を評価し、Diffusion Modelを改善することで、整合性を大幅に向上させることができます。
✔️ 実験結果より、CoMatは追加データを必要とせずにエンドツーエンドで学習でき、定量・定性評価で顕著な性能向上を示しています。今後はマルチモーダルLLMの活用などで、さらなる改善が期待できます。

CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
written by Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li
(Submitted on 4 Apr 2024)
Comments:Project Page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

テキストから画像を生成する分野では、近年ディフュージョンモデルが大きな成功を収めています。しかし、生成された画像とテキストプロンプトの整合性を向上させることは依然として課題となっています。

この論文では、ディフュージョンモデルにおけるテキスト条件の不十分な活用がアラインメントの根本原因であると指摘しています。そして、画像キャプショニングモデルを活用して生成画像とテキストプロンプトの整合性を最適化する新しい手法「CoMat」を提案しています。さらに、属性とエンティティのバインディングを改善する手法や、生成能力を保つためのフィデリティ保持モジュールも導入しています。

実験の結果、提案手法であるCoMatは、既存のベースラインモデルと比べて大幅にテキスト条件への整合性が高い画像を生成できることを示しています。この論文は、テキストと画像のアラインメントを改善する新しい知見と有効な手法を提示しており、この分野における重要な貢献と言えます。

提案手法(CoMat)

CoMatは、ディフュージョンモデルのファインチューニング手法で、画像-テキスト概念マッチングメカニズムを活用したものです。

具体的な流れは以下の通りです(上図参照)。

1. ディフュージョンモデルを使ってテキストプロンプトから画像を生成する。

2. 生成された画像を、あらかじめ学習済みの画像キャプショニングモデルに入力する。

3. 概念マッチングモジュールでは、キャプショニングモデルが出力するテキストとオリジナルのプロンプトの整合性スコアを、ディフュージョンモデルの最適化目標とする。

これにより、生成された画像にプロンプトの概念が抜け落ちている場合、キャプショニングモデルの出力が低くなるため、ディフュージョンモデルはその概念を含むように画像を生成するよう誘導される。

さらに、

4. 属性集中モジュールでは、エンティティとその属性の空間的な整合性も考慮する。

5. フィデリティ保持モジュールでは、adversarial lossを導入して、元の生成能力を維持する。

これらの3つのモジュールを組み合わせることで、テキスト条件に整合した高品質な画像生成を実現するのがCoMatの特徴です。

実験

主な実験設定は以下の通りです。

- ベースモデルには、主にSDXL[36]を使用
- 画像キャプショニングモデルには、BLIP[25]を使用
- 訓練データには、T2I-CompBench[21]、HRS-Bench[3]、ABC-6K[15]から合計約20,000件のテキストプロンプトを使用まず、T2I-CompBenchを用いた定量的な評価結果を Table 1 に示しています。
- 属性バインディング、オブジェクト関係性、複雑な構図の各カテゴリで、CoMat-SDXLがベースラインを大幅に上回る性能を示しています。
- 特に属性バインディングの改善が顕著で、0.1895ポイントもの大幅な向上が確認できます。

次に、TIFAベンチマークの評価結果を Table 2 に示しています。
- TIFA評価スコアでもCoMat-SDXLが最高スコアを達成しており、1.8ポイントの改善を実現しています。

さらに、Figure 6では、フィデリティ保持モジュールの重要性を示す実験結果を視覚化しています。
- 同モジュールを用いない場合、生成画像の品質が著しく劣化することがわかります。

以上の結果から、提案手法CoMatが、テキストと画像のアラインメントを大幅に改善しつつ、生成能力も維持できることが確認できます。

結論

この論文では、ディフュージョンモデルにおけるテキスト条件の不十分な活用が、テキストと生成画像のアラインメント問題の根本原因であると指摘しました。そして、画像キャプショニングモデルを活用したCoMat手法を提案し、属性とエンティティのバインディング改善や生成能力の維持機構も導入しました。実験の結果、CoMatがベースラインモデルに比べて大幅にテキスト条件への整合性の高い画像を生成できることを示しました。本研究は、テキストと画像のアラインメント問題に新たな知見を与え、有効な解決策を提案したと評価できます。

提案手法CoMatは、エンド・ツー・エンドのファインチューニング手法であり、他の手法とも組み合わせて使えるというメリットがあります。今後は、大規模な多モーダルLLMを活用してCoMatの性能をさらに向上させることが考えられます。また、3D領域への適用など、より広範な応用展開が期待されます。テキストと画像のアラインメントは重要な課題であり、本論文の成果が、ディフュージョンモデルの応用範囲を拡大する一助となることが期待されます。