商品カテゴリやブランドのスタイルを考慮したEコマース背景画像生成

Image generation 2025年01月17日

3つの要点
✔️ Eコマース画像は商品カテゴリやブランドのスタイルを考慮する必要があり、画像生成に時間とコストが大きくかかる
✔️ 本論文は初めての背景生成データセットを公開し、カテゴリの共通性と個別スタイルを拡散モデルに統合し、この課題の解決を目指す
✔️ 実験結果は、提案手法がカテゴリ全体で高品質の背景を生成し、参照画像から個別スタイルを維持することを示した

Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style
written by Haohan Wang, Wei Feng, Yang Lu, Yaoyu Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junjie Shen, Zhangang Lin, Lixing Bo, Jingping Shao
(Submitted on 20 Dec 2023)
Comments: 12 pages, 11 figures
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

eコマース商品の背景生成は、画像生成の研究において実用的な価値を持ち、特定の商品に対して自然でリアルな背景を作成し、クリック率（CTR）などのオンラインパフォーマンス指標を向上させることを目的としています。従来、広告主はプロのデザイナーを雇って商品に適した背景を作成していましたが、このプロセスは時間がかかり、さまざまなカテゴリやブランドに必要な背景の大きな違いのために経済的にも負担が大きいです。

コストを削減するために、画像生成モデルを活用した従来の方法では完全な画像を事前生成し、それを商品や他の視覚要素と組み合わせて広告画像を作成することが多いです。しかし、背景が商品の外観とは無関係に生成されるため、最終的な画像はしばしばリアリズムに欠けます。

最近では、テキストベースのインペインティング方法が商品を考慮して背景を生成するために適用されていますが、各商品に適したプロンプトを設計することは依然として時間がかかり、大規模な背景生成には非効率です。さらに、特定のブランドの商品は、細かく一貫した個別のスタイルを持つ背景を必要としますが、これをテキストだけで効果的に記述することは難しく、生成プロセスをさらに複雑にします。

今回の解説論文では、カテゴリの共通性と個別スタイルを拡散モデルに統合することで、この課題の解決を目指しています。また、全体のクオリティを向上させるために、eコマース商品に特化したデータセットも収集しました。

広範な実験により、提案手法が背景の類似性と品質の両方で、最先端のインペインティング方法を大幅に上回ることが実証されました。

提案手法

全体の概要

図１に示すように、提案手法は次の３つコンポーネントから構成かれます。

Stable Diffusion モデル ($SD$)
Category-Wise Generator ($CG$)
Personality-Wise Generator ($PG$)

$CG$と$PG$は、ControlNetのアーキテクチャに基づいて構築および修正されています。トレーニング中に、広告画像$I$と製品のマスク$M$が与えられると、$CG$は一般的なカテゴリ知識を統合するために$I ⊗ M$を入力として取り込み、$PG$は$I ⊗ (1 − M)$から個別のスタイルをキャプチャします。

カテゴリの共通性を活用した生成（$CG$)

eコマースプラットフォームは多様な商品を取り扱っていますが、同じカテゴリ内の商品は多くの共通点を持っています。そのため、同じカテゴリ内の商品に対して同じプロンプトを共有することは自然な考え方です。例えば、カテゴリ名をプロンプトテンプレート「[カテゴリ]の写真」に注入することが考えられます。しかし、単にカテゴリ名にカテゴリの知識を格納し、ControlNetの元のアーキテクチャを継承するのは最適ではありません。カテゴリ名は背景を生成するために利用されるべきですが、トレーニング中に前景を生成する際に前景の知識も不可避的にエンコードされてしまいます。

この問題を解決するために、次の2つのステップがあります：

入力プロンプト: 「[カテゴリ]の写真、[D]の背景で」、ここで[D]は特定の識別子です。
マスクガイド付きクロスアテンション層: 以下の式で定式化されます。ここで、$M$、$P_{fg}$、$P_{bg}$はそれぞれ商品のマスク、エンコードされた商品プロンプト（「[カテゴリ]の写真」）、および背景プロンプト（「[D]の背景で」）を示します。

このアプローチにより、サブネットワークが背景プロンプトのみに基づいて背景を生成することが強制されます。詳細は図1の左半分を参照してください。

パーソナライズスタイルを活用した生成（$CP$）

カテゴリごとの背景はほとんどの商品に適していますが、有名ブランドは一貫したシグネチャースタイルの背景を必要とします。この問題に対処するために、本論文は参照画像のレイアウトや要素を模倣したパーソナライズド背景を生成する方法（PG）を提案しています。

提案手法は、ControlNetに似たアーキテクチャを利用しており、高解像度の特徴マップを維持することで、セマンティックおよび空間情報を保持します。詳しくは、図1の右半分を参照してください。

パーソナライズドスタイルが生成された背景のみに影響を与えるようにするために、提案手法は以下の式により、i番目のクロスアテンション層の出力$y_i$をマスクします。

参照画像と対応する生成画像の十分なトレーニングペアが不足しているため、パーソナライズド背景生成器（PG）は自己教師付きの方法でトレーニングされます。これは、広告画像をサンプリングし、その商品の背景を抽出し、それらを使用して元の画像を再構築することを含みます。

ここでの問題点は元の背景がグラウンドトゥルースとして機能しますが、これによりPGが商品を直接背景に貼り付けるショートカットが発生する可能性があります。この問題を解決するために、マスクMに対して拡張、ランダムマスク、平行移動を用いたデータ拡張を行いました。詳しくは図1の右半分を参照してください。

画像$I$に対して: 下記のように摂動を加え、$I_{rand}$はランダムにサンプリングされた別の広告画像です。

新しい入力データは以下のようになります。

BG60k：eコマース商品背景生成のためのデータセット

従来の画像生成モデルの訓練によく使われているLAIONデータセットは、eコマースシナリオ専用に設計されていないため、多くのトレーニング画像が広告画像の要件を満たしていません。図2はその一部の例を示しています。

本論文はこの問題を解決するために、eコマース商品背景生成のためのBG60kデータセットを収集しました。BG60kは有名なeコマースプラットフォームから収集され、2032カテゴリからの63,293枚の広告画像が含まれています。それぞれの画像は対応するカテゴリと関連付けられています。

データは以下の要件に基づいてクリーンアップされています：

魅力的であること
テキストが含まれていないこと
人物が含まれていないこと

また、提案手法を評価するために、２つのテストセットも作成しました。

BG1K: 200以上のカテゴリからの1,000の商品画商とその元の背景
BG-pair: 個別のスタイルで生成する能力を評価するための1,600ペアの商品画商と参照画像

実験

$CG$と先行研究の比較

本実験では、LaMa、Stable Diffusion、ControlNetなどの先行研究のSOTAと比較することで、提案手法の有効性を検証します。提案手法（$CG$のみ）の入力プロンプトは「A photo of [category], in the background of [D]」です。先行研究の入力プロンプトは「A photo of [category]」となります。結果は表1にまとめられており、$CG$はCLIP類似度とFIDスコアで優れたパフォーマンスを示します。

また、図３のtSNEの可視化により、CGが生成した背景の特徴は、ControlNetと比較して対応する中心の周りによりコンパクトにクラスター化されていることが明らかになりました。ControlNetは、より分散した特徴と外れ値を持っています。実際の比較では、「冷蔵庫」カテゴリのように、CGはより一貫性がありフォトリアリスティックな室内背景を生成するのに対し、ControlNetは関連性の低いまたは非現実的な背景を生成することがあります。

図３．(a) tSNEの可視化。円はトレーニングデータのクラスター中心を表します。各三角形/四角形は、CG/ControlNetによって生成された1つの画像の背景埋め込みを示します。(b) 冷蔵庫カテゴリの比較の可視化。ControlNetと比較して、CGはよりリアルで複雑な背景を生成できます。

パーソナライズ背景生成

表2は、提案手法と先行研究の比較結果を示しています。提案手法は、CLIP類似度が4.75、FIDが1.23と、他の手法を大幅に上回るパフォーマンスを示しています。高いCLIP類似度は、提案手法が参照画像の背景の特徴をうまく模倣していることを示し、低いFIDは、提案手法が広告画像の分布に一貫して従う新しい背景を生成できることを示しています。

さらに、参照画像の商品が背景を必要とする商品と同じであるシンプルなシナリオも評価しました。この場合、生成された背景のすべての要素が参照画像の要素と空間的に一致するため、モデルが参照画像を深く理解する必要が減少します。表2の「Self → Self」に示されているように、提案手法はこのシナリオでもCLIP類似度とFIDの両方で最高のパフォーマンスを達成しています。これらの結果は、形状が似ている商品の参照画像を選択することで、生成された背景の品質をさらに向上させる可能性があることを示唆しています。