Text-2-Image拡散モデルを用いた物体の背景生成
3つの要点
✔️ ユーザ体験、広告効率の向上など、背景生成はクリエイティブデザインやeコマースなどの分野で重要な役割を果たしています。
✔️ 現在のText-guided inpaintingモデルは、背景生成に使用されると、メインオブジェクトの境界を拡張してそのアイデンティティを変更することが多く、この問題を「オブジェクト拡張」と呼びます。
✔️ 本論文では、Stable DiffusionとControlNetアーキテクチャを使用して、インペインティング拡散モデルを背景生成に適応させるモデルを提案し、複数のデータセットにわたって標準的な視覚メトリクスを損なうことなく、オブジェクト拡張を平均で3.6倍削減しました。
Salient Object-Aware Background Generation using Text-Guided Diffusion Models
written by Amir Erfan Eshratifar, Joao V. B. Soares, Kapil Thadani, Shaunak Mishra, Mikhail Kuznetsov, Yueh-Ning Ku, Paloma de Juan
(Submitted on 15 Apr 2024)
Comments: Accepted for publication at CVPR 2024's Generative Models for Computer Vision workshop
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
創造的デザインやeコマースなどの分野では、あるオブジェクトの背景シーンを作成することが非常に重要です。これは、カスタム環境に配置することで被写体を際立たせ、文脈を提供するのに役立ちます。このプロセスは「テキスト条件付きアウトペインティング」と呼ばれ、空白の背景を超えて画像の内容を拡張することを含みます。
人気のあるText-guided inpaintingモデルは、マスクを反転させることでアウトペインティングに適用できますが、これらはシーンにオブジェクトを統合するのではなく、欠けている部分を埋めるように設計されています。その結果、これらのモデルはしばしばオブジェクトの境界を拡張し、そのアイデンティティを変えてしまいます。この問題を「オブジェクト拡張」と呼び、図1はその一つの例です。
今回の記事では、Stable DiffusionおよびControlNetアーキテクチャを使用して、メインオブジェクトのアウトペインティングのためにインペインティング拡散モデルを適応させる新しいモデルを紹介します。
また、さまざまなモデルとデータセットにわたる定性的および定量的な結果を提供し、人間のラベリングなしでオブジェクト拡張を測定する新しい指標も含まれています。Stable Diffusion 2.0 Inpaintingと比較して、このアプローチは標準的な視覚品質指標を損なうことなく、オブジェクト拡張を平均3.6倍減少させます。
提案手法
背景生成のためのControlNet
今回の解説論文では、Stable Inpainting 2.0(SI2)をベースモデルとして使用し、その上にControlNetモデルを追加して、主要オブジェクトのアウトペインティングタスクに適応させます。モデル全体の概要は図2に示されています。
図2に示したように、ControlNet以外のSI2の全ての重みを固定し、学習済みモデルを利用します。モデルの入力は以下の通りです。
- Mask: オブジェクトがあるピクセルは1、ないピクセルは0の行列
- Masked Image: オブジェクト以外の部分が全て0の値を持つ画像
- プロンプト: 望ましい背景の説明文
- Time: 拡散過程の現在のタイムステップ
計算コストを削減するために、SI2はピクセル空間ではなく、Encoderで画像を64 × 64 × 4の潜在空間に変換してから拡散過程を行います。そのため、ControlNetアーキテクチャでは条件画像を64 × 64 × 4の潜在空間に変換する必要があります。具体的には、画像は4つの畳み込み層からなる小さなニューラルネットワークで特徴マップにエンコードされます。このネットワークは以下の設定を使用します:
- カーネルサイズ: 4 × 4
- ストライド: 2 × 2
- 活性化関数: ReLU
- チャネル次元: 16、32、64、128(それぞれ4つの畳み込み層に対応)
- 重みの初期化: ガウス重み
このネットワークはControlNetモデルと共同でトレーニングされ、その後ControlNetのU-Netモデルに渡されます。
ControlNetは、U-Netデコーダの出力を徐々に修正するために、図2のようにいくつかのゼロ畳み込み層を使用します。数学的には、高さ、幅、チャネル数をそれぞれ${h, w, c}$とする特徴マップ$x ∈ R^{h×w×c}$、パラメータのセット$Θe$を持つU-Netエンコーダブロック$E(.; Θ_e)$、およびパラメータのセット$Θ_d$を持つU-Netデコーダブロック$D(.; Θ_d)$が与えられます。ゼロ畳み込み操作を$Z(.; Θ_z)$と表します。提案手法が使用しているControlNetの構造は次のように定義されます。
ここで、( y ) はControlNet構造によって変調されたデコーダ層の出力を表します。ゼロ畳み込み層のパラメータがゼロとして初期化されるため、最初の勾配降下ステップでは ( Z(x; \Theta_z) = 0 ) となり、デコーダ層の元の出力は変わりません。その結果、U-Netモデルのトレーニング可能なコピーと凍結されたコピーのすべての入力と出力は変更されず、ControlNetが存在しないかのようになります。さらに、ControlNet構造が勾配降下ステップの前にいくつかの層に適用されると、中間特徴には影響を与えません。
学習の損失関数は通常の拡散モデルと同様に、以下のようになります。
オブジェクト拡張の評価指標
あるオブジェクトのアウトペインティングにおけるText-guided inpaintingモデルの主な課題は、オブジェクトの境界を維持できないことです。オブジェクト拡張の問題に対処するためには、定量的な誤差測定方法が必要です。高価な人間によるラベリングの代わりに、オブジェクトセグメンテーション(SOS)モデルが最初に使用され、入力画像とアウトペインティングされた画像のマスクを作成しました。しかし、これらのモデルはアウトペインティングされた画像では性能が低く、おそらく分布の変化が原因です。
Segment Anything Model(SAM)は、アウトペインティングされた画像でも効果的であることがわかりました。SAMはSOSモデルではありませんが、正および負のポイントプロンプトを使用してオブジェクトをセグメント化できます。
InSPyReNet SOSモデルによって作成された元の画像のマスクからポイントを選択することで、SAMはアウトペインティングされた画像のオブジェクトをセグメント化し、マスクを生成します。このプロセスは入力画像にも繰り返され、マスクの直接比較が可能になります。図4には、これらのマスクを取得するための詳細なパイプラインが示されています。
このパイプラインでオブジェクト拡張の評価指標は次の式のように計算できます。ここで、AREAは画像に占める物体の面積の割合です。
実験
比較対象と評価指標
提案手法の効果を検証するために、ImageNet-1kやABO、COCO、DAVIS、Pascalデータセットで、Blended Diffusion、GLIDE、Stable Inpaintingなど代表的なモデルと比較します。評価指標は次のようになります。
- FID: 生成画像と実画像の分布距離を測定することで知覚品質を評価します。
- 知覚画像パッチ類似度(LPIPS):同じオブジェクト画像に対するアウトペインティング画像のペア間の平均LPIPSスコアを計算することで、生成された背景の多様性を評価します。
- CLIPスコア:CLIP-ViT-L/14を使用して、テキストプロンプトと生成された画像の埋め込み間のコサイン距離として整合性を測定します。
- オブジェクト類似度:背景生成後にオブジェクトのアイデンティティがどれだけ保持されているかを測定します。これは、BLIP-2を使用してアウトペインティング画像と入力オブジェクトのみの画像の埋め込み間のコサイン距離として計算されます。
- オブジェクト拡張:上記のように、ピクセル空間におけるメインオブジェクトの拡張の程度を定量化します。
先行研究との比較結果
表1の結果は、最先端のSI2モデルと比較して、提案手法がオブジェクト拡張を平均3.6倍削減することを強調しています。LAIONデータセットでトレーニングされたSI2が非現実的な画像に苦労する一方で、実画像データセットでトレーニングされた提案手法は、より良いFIDおよびLPIPSスコアを達成します。
GLIDEはLPIPSでわずかに高いランクを占めるものの、FIDおよびCLIPスコアではパフォーマンスが低く、オブジェクト拡張を示します。SD2はオブジェクトからの制約が少ないため、最高のCLIPスコアを達成します。
提案手法は、トレーニング画像の分布とBLIP-2の合成キャプションに依存しているため、SI2のCLIPスコアをわずかに低下させます。しかし、提案手法のアーキテクチャは推論中にControlNetの強度を調整することができ、出力制御に柔軟性を提供します。
さらに、提案手法は最高のオブジェクト類似度スコアを達成し、オブジェクトのアイデンティティの保持がより良いことを示しています。オブジェクト拡張の測定値はSI2に対して3.6倍の改善を示し、これは提案手法のアーキテクチャとトレーニングデータによるものです。
カテゴリ別のオブジェクト拡張
図6では、12のCOCOスーパーカテゴリにわたるオブジェクトの拡張をプロットしています。
拡張スコアによるスーパーカテゴリの順序は、ベンチマークされたモデル全体でほぼ同様であることがわかります。各モデルの最高の拡張スコアは、FOOD、KITCHEN、FURNITUREなど、細かいディテールが多く、明確な寸法を持たない顕著なオブジェクトを含む室内設定で見られます。
同様に、最低の拡張スコアは、SPORTSやANIMALのような背景とよく対比するオブジェクトがある屋外シーンで発生します。
まとめ
今回の記事では、オブジェクトの境界を変更せずに背景を生成するための拡散モデルに基づくアプローチを紹介しました。オブジェクトのアイデンティティを保持することは、デザインやeコマースなどのアプリケーションにおいて非常に重要です。解説した論文はオブジェクト拡張の問題を特定し、それを捉えるための測定方法を提供しました。
顕著でないオブジェクトの背景生成は将来的な課題として残しており、高品質のインスタンスまたはパノプティックセグメンテーションマスクが必要となる可能性があります。さらに、ControlNetの代替手段として、U-Netエンコーダを変調するT2I-adapterや、オブジェクト認識背景生成のタスクに対する新しい制御アーキテクチャを組み合わせることで、全体の精度と生成画質の向上も期待できます。
この記事に関するカテゴリー