最新AI論文をキャッチアップ

Disentangled Diffusion:単一の画像から複数の概念を抽出するT2Iモデル

Disentangled Diffusion:単一の画像から複数の概念を抽出するT2Iモデル

Image generation

3つの要点
✔️ 単一の画像から複数の概念を抽出するDisentangled Diffusion(DisenDiff)を提案
✔️ 各クラスを重複なく分離する損失を導入し、
取り出したい概念の外観を忠実に抽出
✔️ DisenDiffは定性的評価と定量的評価の両方でSOTAを上回ることを実証

Attention Calibration for Disentangled Text-to-Image Personalization
written by Yanbing ZhangMengping YangQin Zhou, Zhe Wang
(Submitted on 27 Mar 2024 (v1), last revised 11 Apr 2024 (this version, v2))
Comments: CVPR 2024 (Oral)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、大規模なコーパスを用いたText-to-Image(T2I)モデルの劇的な進歩により、画像生成・合成のクオリティは大幅に向上しました。数枚の入力画像があれば、参照画像に無い新しい概念を生成することも容易となりました。しかしその一方で、データセットが単一画像である時、アテンションマップが曖昧になってしまい、拡散モデルがその画像特有の概念や外観を学習・生成することが困難であるという課題が残っています。

そこで本論文では、T2Iモデルの概念理解を向上させるアテンション校正機構が提案されています。この機構では、単一画像から複数の概念を互いに干渉しないように抽出するため、クラスと結びついた学習可能な修飾子を導入し、異なる概念間の相互影響を抑制、クラス毎の理解を強化していきます。

Disentangled Diffusion(DisenDiff)と名付けられた本論文の提案手法は、様々なデータセットに対して定性的評価と定量的評価の両方でSOTAを上回ることが実証されました。さらにLoRA、インペインティング技術との相互運用性を持つなど、拡張タスクにも柔軟性が高いことが報告されました。

DisenDiff

本論文で提案されているDisenDiffのアテンション校正機構は、図1のように3つの段階を用いて、単一の画像から複数の概念を解していきます。

Stable Diffusionから出力されたアテンションマップは、先ず抑制技術によってそれぞれのクラスの領域を鮮明化されます。次に修飾子がクラスと対応するように損失Lbindが導入されます。最後に加えられた損失Ls&sにより、各クラスが独立して分離されます。次節から各段階について説明していきます。 

本論文ではバックボーンモデルとしてStable Diffusion、事前学習済みテキストエンコーダーとしてCLIPが使用されています。

図1 DisenDiffの全体像

学習可能な修飾子の導入

T2Iモデルの学習には入力画像と共に適切なテキストプロンプトを入力することが必要となります。本論文では、「V1*猫とV2*犬」のように、「猫」というクラストークンの前に修飾子トークン「Vi*」を挿入します。

修飾子とクラスのバインディング

従来の方法では、トレーニングデータが単一の画像である場合に過剰適合する傾向があり、その結果、各トークンのアテンションマップがあいまいになっていました。先ほど導入した修飾子トークンのアテンションを用い、図2に基づいて正確なクロスアテンションマップを生成していきます。

図2 各トークンのアテンションマップ

図2の最上段のマップを見ると、修飾子トークンのマップに比べてクラストークンのアテンションマップはクラスの意味する境界線を大まかに捉えられていることが分かります。そこで次の損失を与えることで、修飾子トークンとクラストークンのアテンションマップ間のIoUを増加させ、修飾子トークンの活性化、対応するクラストークンとの整合を目指します。

ただしこの損失をそのまま適応すると、同じピクセルで注目度が競合したり、修飾子が概念を包括的に捉えられないといった課題が生じます。そのため本論文では、損失を計算する前にアテンションマップにガウシアンフィルタG(At)を作用させて平滑化を行います。

クラスの分離と強化

前節で、トレーニングデータが単一の画像である場合に過剰適合する傾向があると述べましたが、クラストークンが他のクラス領域に侵入してしまうことも懸念されます。図2の最上段のマップを見ると、「猫」トークンのアテンションマップは、「犬」の領域にもある程度侵入してしまっていることが分かります。

そこで次の損失を与えることで、他のオブジェクトとの重複回避とオブジェクトの包括的なカバレッジの確保の間でバランスを取り、アテンションの精度を向上させます。

ただしこの損失をそのまま適応すると、異なるクラス間のアクティベーション分布の不均衡により、特定のクラスが不自然に強調される可能性があります。そのため本論文では、損失を計算する前にアテンションマップに対して要素ごとの乗算をfm(Atci)=AtciAtciとして行い、クラスにとって重要性の低いアクティベーション分布を除外します。

全体的なトレーニング損失 

ここまでの内容から、トレーニング時に用いる損失は次式のように表すことができます。ただしSは入力画像内のクラスの数となります。

実験

データセット

本論文では、人物、動物、家具、ペット/おもちゃを持つ人物など、幅広いカテゴリにわたる10個のデータセットに対して実験を実施しました。データセット内の各画像内には2つの異なる概念が含まれています。推論する際には画像毎に30個づつのプロンプトでテストしており、両方の概念に注目するプロンプトが10個、1つ目の概念に注目するプロンプトが10個、2つ目の概念に注目するプロンプトが10個となっています。

評価指標

評価指標はimage-alignmentとtext-alignmentの2つから総合的に評価されます。image-alignmentは生成された画像と対応する実際の画像のCLIP空間コサイン類似度を測定し、text-alignmentはプロンプトテキストと画像の類似性を計算します。これらの評価指標から、画像再構成能力と編集可能性のバランスを図ります。

実験結果

提案手法モデルDisenDiffをTextual-Inversion(TI)、DreamBooth(DB)、Custom-Diffusion(CD)の3つの最先端T2Iモデルと比較した結果、図3(a)に示される定量的比較結果を得ました。

図3(a)の左上、Meanから読み取れるように、提案手法のモデルはimage-alignmentに関して比較した全てのモデルを上回っていることが確認されました。text-alignmentに関しては提案手法よりTIが上回っていますが、TIはimage-alignmentが低く、生成時に元の概念を上手く維持できていないことが読み取れます。したがって、提案手法のモデルはテキスト編集効果を維持しながらも、最も高い画像再構成能力を実現していることが分かりました。

また各コンポーネントの必要性を確認するため行われたアブレーション分析の結果が図3(b)に記載されています。この図から全ての方針を採用した提案手法は最もバランスのいいパフォーマンスを実現していることが示されました。

図3 提案手法と他3つのT2Iモデルとの定量的評価比較

図4には、提案手法とimage-alignmentが高かった2つのモデルの、様々なプロンプトに対する視覚的な比較結果が示されています。

シーンの変更やオブジェクトの追加、スタイルの変更、概念の切り離しへの対応など、さまざまな編集シナリオにおいて、学習した独立概念と結合概念を評価するターゲットプロンプトが入力されています。例えば、入力された単一画像上の猫と犬に対して、犬の犬種を変更して画像を生成するといったプロンプトがあります。

図5より、DBの合成画像は取り出したい概念を形作る上で不可欠な要素を欠く特徴があること、またCDの合成画像は概念の外観を保持できていないという欠点があることが読み取れます。提案手法モデルDisenDiffは他のモデルに比べ、元の画像に対する忠実性が高いことが読み取れます。

 

図4 提案手法と他2つのT2Iモデルとの定性的評価比較

本論文では最後に、提案モデルがLoRAやインペインティングパイプラインと相互運用性があり、ユーザフレンドリなアプリケーション開発に使用できることを示しています。

おわりに

本論文では、単一の画像から複数の概念を重複なく学習するするDisenDiffが提案されました。各トークンの正確なアテンションマップを構成するために、クロス アテンションユニットに独自の損失を導入し、単一画像への過剰適合を軽減しながら取り出したい概念の外観を正確にキャプチャすることを実現しました。他T2Iモデルとの比較から、提案手法のモデルは入力画像への忠実性と高い画像再構成能力を示し、定量的にも定性的にも最先端の優位性を実証しました。

提案手法DisenDiffの特に素晴らしい点は、クロスアテンションマップへの独自の損失の導入により、従来手法より単一画像の特有概念を上手く抽出できていることだと感じました。この手法はインペインティング技術などの他手法との相性が良く、画像合成技術の質向上へ繋がっていく将来性が見込めます。進展が非常に楽しみです。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする