PosterLlama: 言語モデルの設計能力とコンテンツを考慮したレイアウト生成

layout-gen 2025年01月28日

3つの要点
✔️ 広告、ポスター、ウェブUIデザインなどでのビジュアルレイアウトは非常に重要であり、従来の手法は意味的な詳細を見逃すことが多い
✔️ PosterLlamaはHTML形式で大規模言語モデルの設計能力を活用し、視覚的・テキスト的に一貫したレイアウトの生成を目指している
✔️ 実験結果により、PosterLlamaは既存の方法を上回り、多様な条件に対応できる多用途なツールであることが示された

PosterLlama: Bridging Design Ability of Langauge Model to Content-Aware Layout Generation
written by Jaejung Seol, Seojun Kim, Jaejun Yoo
(Submitted on 1 Apr 2024 (v1), last revised 28 Jul 2024 (this version, v3))
Comments: ECCV 2024
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

レイアウトは、ロゴやテキストなどの要素を効果的に配置し、視覚的に注目を集め情報を伝えるために、グラフィックデザインにおいて非常に重要です。これは、ウェブUI、ポスター、ドキュメントの組版、領域制御された画像生成やレイアウトガイド付きビデオ生成などの用途に不可欠です。レイアウト生成モデルは、手作業を減らし、美的および機能的な効率を高めることで、コスト削減の可能性を提供します。

レイアウト生成において、テキストの可読性と視覚バランスを確保するために重要です。ContentGANに続き、CGL-GAN、DS-GAN、RADMなどの先行モデルは、視覚およびテキストコンテンツを組み込むことでレイアウト生成を改善しました。しかし、これらの方法はレイアウト要素を単純な数値として扱いがちで、意味的な関係を十分に捉えられません。

LayoutPrompter、Layout GPT、LayoutNUWAなどの最近のモデルは、言語モデルを使用して高品質なレイアウトを生成できますが、細かい視覚コンテンツに苦労します。今回の紹介論文では、PosterLlamaを提案します。これは、視覚およびテキストコンテンツを統合してポスターレイアウトを生成するモデルです。レイアウト要素をHTMLコードに変換し、言語モデルのデザイン知識を活用します。二段階のトレーニングプロセスにより、視覚エンコーダーとLLMを接続し、HTMLシーケンスを生成するようにモデルを訓練します。

データセットの課題に対処するため、ポスター内の顕著なオブジェクトに焦点を当てたデータ拡張手法も提案します。また、シーンテキスト生成モジュールを使用して広告ポスターを生成するパイプラインを導入します。

PosterLlamaはほぼすべての指標で最先端の性能を達成しています。LLMのデザイン知識を活用することで、品質は実際のレイアウトとほぼ同等です。PosterLlamaは、あらゆる種類のコンテンツ認識レイアウト生成タスクに対応できる初のモデルであり、多くの場面での活躍が期待されています。

提案手法

入出力シーケンスのフォーマット

・レイアウトフォーマット

コンテンツを考慮したレイアウト生成の目標は、与えられたコンテンツ条件 $C$ に基づいてレイアウトを生成することです。ポスターレイアウト生成において、$C$ はポスターキャンバスやテキスト説明などのマルチモーダルコンテンツとして定義されます。レイアウトは $N$ 個の要素 ${e_i}_{i=1}^N$ で表され、それぞれの要素 $e_i = (t_i, s_i, c_i)$ は以下を含みます:

バウンディングボックスの位置 $t_i = (x_i, y_i)$
サイズ $s_i = (w_i, h_i)$
カテゴリ $c_i$

コンテンツ条件に加えて、レイアウト要素のサブセットも制約として機能することがあります。

・HTMLフォーマット

レイアウト生成のためにLLMに含まれる広範な知識を活用するために、レイアウトをHTMLシーケンスの形式で表現します。この方法により、ウェブUIデザインなどのLLMのトレーニングデータに埋め込まれたデザインの事前知識を活用でき、レイアウト属性を数値として表現するよりも強力な表現能力を提供します。

以前のアプローチを踏まえ、タスク定義、HTMLフォーマット、テキスト制約によってモデルの入力シーケンスを構築することで、テキスト認識レイアウトを生成するテンプレートを開発しました:

タスク定義: {Task Condition}で識別される入力シーケンスの条件を指定します（例: 先行研究Gen-ITの {“according to the categories and image”}）。
HTMLフォーマット: <rect>などのHTMLタグを使用してレイアウト要素をカプセル化し、ウェブUIレイアウトを特徴付ける多様なタグを活用します。
マスクトークン: <M> マスクトークンを導入して、LLMがマスクされたトークンを予測するよう促し、条件付きレイアウト生成を容易にします。

レイアウト要素は固有の順序を持たないため、学習中にマスクトークンの順序を固定すると、データが限られている場合や条件が多様な場合に過学習を招きやすくなります。これに対処するため、入力と出力の要素間の同期を維持しながら、レイアウトの順序にランダムな置換を導入します。

さらに、効率的なトレーニングとトークン全体の長さを減らすために、以前の研究と同様に各要素の属性を離散化します。このアプローチにより、モデルは高品質でテキスト認識レイアウトを効果的に学習・生成できます。

学習方法

トレーニングの全体像は図１に表されています。ポスターレイアウト生成のために、Mini-GPT4の効率的なVisual Question Answeringメソッドと指示調整に触発された二段階のトレーニングアプローチを採用します。

第1段階: アダプタートレーニング

アダプターのチューニング: 線形層をアダプターとして使用し、イメージエンコーダーをLLMに合わせます。モデルの他の部分を固定し、アダプターのみをトレーニングします。
トレーニングデータ: 分類された画像テキストペアの広範なコレクションを使用します。
画像特徴エンコード: エンコーダーからの画像特徴を <img> トークン内にカプセル化し、テキストトークンおよびテキスト指示とともに扱います: “<img><ImageFeature></img> Describe this image indetail.”
ビジュアルエンコーダー: 最新の視覚埋め込みモデルであるDINOv2を利用します。

第2段階: レイアウト生成ファインチューニング

アダプターの固定: 視覚アダプターを固定し、LLMをファインチューニングします。
HTML形式のデータセット: レイアウト生成のために、HTML形式のデータセットを使用します（前節で説明したデータ形式）。
破滅的忘却の防止: ファインチューニングプロセスを最適化し破滅的忘却を防ぐために、LoRA（低ランク適応）を使用します。
目的関数: クロスエントロピー損失

この二段階アプローチは、モデルの視覚と言語の能力を活用し、高品質なポスターレイアウト生成のための効果的な調整とファインチューニングを保証します。

データ拡張

生成モデルの性能は多様でリッチなデータで向上しますが、ポスターデータセットは量が限られ、著作権問題もあり、大規模なデータセットの収集が困難です。

これに対処するため、深度ベースの拡張とトップk類似性選択を使用した新しいポスターデータ拡張方法を提案します。概要は図２-aに表されています。この方法は、テキストと深度マップに基づく生成モデルControlNet-Depthを活用します。キャプションはBlip-2を使用して生成し、深度マップは利用可能なネットワークで推定します。

ControlNetの高品質な合成にもかかわらず、特に目立つオブジェクトに対しては、拡散生成された画像にアーティファクトが生じることがあり、レイアウトと画像キャンバスの相関に影響します。これを軽減するために、DreamSIMを使用し、レイアウトと意味的内容に敏感な類似性測定を行い、N個の生成サンプル（N = 10, k = 3）からトップkサンプルを選択します。

このプロセスにより、構図と目立つオブジェクトを保持しつつ、変更を最小限に抑えた高品質な合成データが生成されます。図2(b)は、拡張例を示し、この方法の有効性を示しています。

実験

定量的な評価

表１. コンテンツを考慮したレイアウト生成タスクにおけるベースラインとの定量的比較

本セクションでは、PosterLlamaモデルの性能をDS-GAN、LayoutPrompter、RADMと比較します。これらはすべて高度なレイアウト生成手法です。評価には8つの異なる指標を使用します。

PKUデータセットにはテキスト注釈がないため、RADMの性能はCGLデータセットのみで比較します。ユーザー制約なしの注釈付きテスト分割の定量結果を表1にまとめています。PosterLlamaは、CGLデータセットで5つの指標で最高得点を達成し、FD、rea、occでは2番目に高い得点を獲得しました。また、PKUデータセットでもFDを除くすべての指標で最高得点を達成しました。

定性的な評価

本セクションでは、表1および図３に示された詳細に基づき、PosterLlamaとベースライン手法の定性的比較を行います。

DS-GAN: 要素が固定されているため、左上に要素が集中しやすく、しばしば重なったり、整列が不十分です。非要素のレイアウトが左上（0, 0, 0, 0）に配置されることが原因です。
Layout Prompter: 整列は良好ですが、コンテンツ認識が不足しており、大きな重なりが発生します。
RADM: すべてのサンプルで実データに近い構造を生成します。
PosterLlama: 実データに過適合することなく、適切で理にかなったレイアウトを生成する能力を示します。

全体として、PosterLlamaは、整列が良好でコンテンツ認識も備えたレイアウトを生成し、整列不良、重なり、隠蔽といった一般的な問題を回避することで、ベースライン手法を上回ってると確認できます。

まとめ

本記事では、視覚およびテキストのコンテンツを考慮したレイアウト生成のための新しい方法、PosterLlamaを紹介しました。コンテンツを考慮したレイアウト生成のために、効率的なVisual Question Answeringトレーニング方法を利用して、LLMに視覚認識を導入し、レイアウトを言語モデルに適したコード形式で処理します。データ不足を克服するため、市販の生成モデルを使用した深度ガイド付き拡張を提案し、インペインティングのアーティファクトを緩和して公平な評価を可能にします。

広範な実験により、PosterLlamaは既存のアプローチを上回り、テキストフォーマットで条件を処理することで多様な条件生成を達成し、インペインティングのアーティファクトによる学習ショートカットに対しても堅牢であることが示されました。この堅牢性と拡張方法のおかげで、PosterLlamaは小さなデータセットでも非常に効果的で、実世界のアプリケーションに適応可能です。

この記事に関するカテゴリー

JACK