最新AI論文をキャッチアップ

LAMIC:学習不要でレイアウト制御可能な多参照画像生成手法

LAMIC:学習不要でレイアウト制御可能な多参照画像生成手法

LLM-Paper

3つの要点
✔️ LAMICは学習不要で複数参照画像とレイアウト制御を組み合わせた画像生成を実現
✔️ Group Isolation AttentionとRegion-Modulated Attentionで干渉防止と精密な配置制御を可能に
✔️ 実験で既存手法を上回る性能を示し、ID保持・背景一貫性・レイアウト精度で優位性を確認

LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer
written by Yuzhuo ChenZehua MaJianhua WangKai KangShunyu YaoWeiming Zhang
(Submitted on 1 Aug 2025)
Comments: 8 pages, 5 figures, 3 tables

Subjects: Computer Vision and Pattern Recognition (cs.CV)

概要

本論文は、複数の参照画像を用いた制御可能な画像生成において、レイアウト情報を考慮した高品質な合成を実現する新手法『LAMIC』を提案しています。

従来の拡散モデルは単一参照画像に基づく生成に強みを持っていましたが、複数参照を扱う際には「アイデンティティの一貫性低下」や「レイアウト崩れ」といった課題を抱えていました。
また、既存手法の多くは追加学習や大規模データセットを必要とし、汎用性や拡張性に制約があるとのこと。

LAMICは、Multimodal Diffusion Transformer(MMDiT) を基盤とし、学習を伴わないゼロショット方式で、複数画像とテキスト、さらに領域指定(バウンディングボックスやマスク)を組み合わせた生成を可能にしました。
特に、Group Isolation Attention (GIA) によるエンティティの分離と、Region-Modulated Attention (RMA) によるレイアウト制御を導入し、意味の混線を防ぎつつ空間配置を忠実に再現。

評価実験では、アイデンティティ保持、背景一貫性、レイアウト精度などの指標で既存手法を上回り、複数参照・複雑構図においても優れた性能を示しました。
本研究は、追加学習を不要とする効率的な枠組みにより、映像制作や物語生成といった実応用に大きな可能性を示しています。

提案手法

LAMICの中心的なアイデアは、参照画像・テキスト記述・レイアウト情報を統合したトークン表現 を構築し、それをMMDiTに入力することで、多参照画像の一貫した合成を可能にする点です。

まず、各参照は「視覚(V)・テキスト(T)・空間(S)」の三要素からなる VTSトリプレット として定義され、これにエンティティ間の関係(Cross-Entity Interaction, CEI)や非制御領域(U)が加わります。

次に、これらを統合トークン列に変換し、MMDiT内部で一貫した表現として処理します。
その際、Group Isolation Attention (GIA) を導入し、各VTSグループ間の不要な相互干渉を遮断することで、異なるエンティティの特徴が混ざることを防ぎます。

さらに、生成初期段階では Region-Modulated Attention (RMA) を適用し、空間領域ごとの独立性を保持しつつ後段で統合する仕組みを採用。
これにより、キャラクターの位置関係や背景の一貫性を正確に再現し、複雑なレイアウトに対応可能となります。
重要なのは、本手法が追加の学習や微調整を必要とせず、既存の単一参照モデルをそのまま拡張できる点であり、実運用における効率性と汎用性を両立している点です。

実験

著者らは、提案手法LAMICを評価するために、既存の XVerseBench データセットを拡張し、多様な参照画像(人物・動物・物体・衣服・シーン)と対応するレイアウト情報を用意しました。

実験設定では、2枚・3枚・4枚の参照画像を入力とし、ID保持(ID-S)、背景類似度(BG-S)、外観一貫性(IP-S)、美的評価(AES)など複数の指標で性能を比較。
さらに、新たに提案した Inclusion Ratio(IN-R) と Fill Ratio(FI-R) により、生成物がどの程度レイアウト指示を守れているかを定量評価しました。
その結果、LAMICは全ての設定において平均スコア(AVG)で既存手法を上回り、とくにID保持と背景一貫性で顕著な改善を示しました。

3枚・4枚参照の高難度タスクでも、従来法に比べ平均4〜8ポイントの向上を達成。
加えて、アブレーション実験では、GIAやRMAを取り除くと性能が大きく低下することが確認され、両機構の有効性が裏付けられました。
さらに、RMA適用比率を調整することで、レイアウト精度と全体的な視覚的滑らかさのトレードオフが観察され、0.05の比率が最適と結論づけています。

総じて、LAMICは追加学習なしで最先端性能を実現し、多参照画像合成における新たな標準となり得ると示されました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする