分離学習と報酬学習による新手法『USO』：スタイルと主体を統合した画像生成の最前線

LLM-Paper 2025年09月03日

3つの要点
✔️ スタイル駆動と主体駆動を統一的に扱うため、USOモデルと三つ組データ生成枠組みを提案
✔️ スタイル整合学習・コンテンツ分離学習・スタイル報酬学習を組み合わせ、高精度生成を実現
✔️ 新ベンチマークUSO-Benchで検証し、スタイル忠実度と主体一貫性の両面で従来手法を上回る結果を達成

USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
written by Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
(Submitted on 26 Aug 2025)
Comments: Project page: this https URL Code and model: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

概要

近年、画像生成における「スタイル駆動生成」と「主体駆動生成」は別々の課題として研究されてきました。
前者は参照画像の画風を強調する一方、後者は人物や対象物の一貫性を保つことに重点を置き、両者は対立的に捉えられてきたとのこと。

しかし本論文では、これらを統一的に扱うことが可能であると主張します。
その理由は、どちらの課題も「コンテンツ」と「スタイル」を切り離して再結合する作業に他ならないからです。

そこで著者らは USO（Unified Style-Subject Optimized）モデルを提案。
USOは、大規模な三つ組データセット（コンテンツ画像・スタイル画像・スタイル適用済み画像）を構築し、さらにスタイル整合学習とコンテンツ・スタイル分離学習を組み合わせて訓練します。

加えて、スタイル報酬学習（SRL）を導入し、スタイル忠実度を強化。
また、著者らは USO-Bench というベンチマークを新たに構築し、スタイル類似性と主体一貫性を同時に評価しました。

実験の結果、USOは従来手法を上回り、スタイルと主体の両立において最先端性能を達成したと報告されています。

提案手法

USOの中心的な発想は、スタイル駆動と主体駆動を「相補的な課題」として同時に学習させる点にあります。

まず、著者らは Cross-Task Triplet Curation Framework を構築。
これは、スタイル化専門モデルと脱スタイル化モデルを用いて、参照スタイル画像・主体参照画像・スタイル適用結果画像の三つ組データを自動生成する仕組みです。

次に、統一的なカスタマイズ枠組み Unified Customization Framework (USO) を導入。
学習は二段階で行われます。

第一段階では、SigLIPエンコーダと階層的プロジェクタを用いたスタイル整合学習（Style Alignment Training）により、スタイル特徴を正確に抽出できるようにします。
第二段階では、コンテンツ画像とスタイル画像を別々のエンコーダに入力し、コンテンツとスタイルの分離学習（Content–Style Disentanglement Training）を行い、不要な特徴の混入を防ぎます。

さらに、スタイル報酬学習（Style Reward Learning, SRL）を導入し、生成結果が参照スタイルにどれだけ近いかを報酬信号として学習に反映。
これにより、スタイル忠実度と主体一貫性を同時に高めることに成功したとのこと。

実験

提案手法の有効性を検証するため、著者らは新たに構築した USO-Bench と既存の DreamBench を用いて大規模な実験を行いました。

USO-Benchは50種類のコンテンツ画像と50種類のスタイル画像を組み合わせ、主体駆動・スタイル駆動・両者統合のタスクを網羅的に評価できるベンチマークです。
評価指標には、主体一貫性を測る CLIP-I と DINO、スタイル類似性を測る CSD、テキストと画像の整合性を測る CLIP-T が用いられました。

実験の結果、USOは主体駆動・スタイル駆動の双方で既存手法を上回り、特にスタイルと主体を同時に扱う複合タスクでは顕著な性能向上を示しました。
定量評価ではCSDおよびCLIP-Tのスコアが最高値を記録し、定性評価でもUSOは対象の外見を保持しつつ多様な画風を忠実に再現。

さらにアブレーション実験では、スタイル報酬学習や階層的プロジェクタが性能向上に大きく寄与していることが確認されたとのこと。
総じて、USOはスタイルと主体の両立を実現する最先端の統一生成モデルであると結論づけられます。