
USO",一种基于分离和奖励学习的新方法:走在将风格和主题融为一体的图像生成的最前沿
三个要点
✔️ 提出 USO 模型和三向数据生成框架,以统一方式处理风格驱动和主题驱动数据
✔️ 将风格一致学习、内容分离学习和风格奖励学习结合起来,实现高精度生成
✔️ 在新的 USO-Bench 基准上进行了验证,在风格保真度和主题一致性方面都取得了更好的结果在风格保真度和主题一致性方面均优于传统方法
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
written by Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He
(Submitted on 26 Aug 2025)
Comments: Project page: this https URL Code and model: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,"风格驱动生成 "和 "主题驱动生成 "作为图像生成中的两个独立问题被研究。
前者强调参考图像的风格,而后者侧重于保持人物或物体的一致性,两者被视为对立的。
然而,本文认为可以将两者视为统一的。
原因在于,这两项任务无非都是将 "内容 "和 "风格 "进行分离和重新组合的任务。
因此,作者提出了 USO(统一风格-主体优化)模型。
USO 建立了一个大型三元组数据集(内容图像、风格图像和风格应用图像),并进一步将风格对齐学习和内容-风格分离学习结合起来风格对齐学习和内容-风格分离学习。
此外,还引入了风格奖励学习(SRL),以增强风格保真度。
作者还建立了一个新的基准--USO-Bench,以同时评估风格相似性和主题一致性。
实验结果表明,USO 优于传统方法,在风格和主题一致性方面都达到了最先进的水平。
建议的方法
USO 的核心思想是将风格驱动任务和主题驱动任务作为 "互补任务 "同时学习。
首先,作者构建了一个跨任务三元组保存框架(Cross-Task Triplet Curation Framework)。
这是一种使用风格化专用模型和去风格化模型自动生成三重数据(参考风格图像、主题参考图像和风格应用结果图像)的机制。
接下来是统一定制框架 统一定制框架(USO)。
学习分为两个阶段。
在第一阶段,使用 SigLIP 编码器和分层投影仪进行风格对齐训练,确保能够准确提取风格特征。
在第二阶段,内容和风格图像被输入到不同的编码器中,以执行内容-风格分离训练(Content-Style Disentanglement Training),避免不必要的特征污染。
此外,还引入了风格奖励学习(SRL),将生成的结果与参考风格的接近程度作为奖励信号反映在训练中。
这成功地同时提高了风格保真度和主体一致性。
实验
为了测试所提方法的有效性,作者使用新构建的 USO-Bench 和现有的 DreamBench 进行了大规模实验。
USO-Bench 是一个结合了 50 种不同内容图像和 50 种不同风格图像的基准,可以全面评估主题驱动、风格驱动和两者结合的任务。
评估指标包括衡量主题一致性的 CLIP-I 和 DINO、衡量风格相似性的 CSD 以及衡量文本和图像一致性的 CLIP-T。
实验结果表明,USO 在主题驱动和风格驱动任务中的表现均优于现有方法,尤其是在同时处理风格和主题的复杂任务中,表现出了显著的性能提升。
在定量评估中,CSD 和 CLIP-T 的得分最高;在定性评估中,USO 忠实地再现了各种绘画风格,同时保留了主体的外观。
此外,消融实验证实,风格奖励学习和分层投影对性能的提高有很大帮助。
总之,可以得出结论,USO 是一种最先进的统一生成模型,可以同时实现风格和主题。
与本文相关的类别