赶上最新的AI论文

Seedream 3.0 填充:OneReward 使下一代掩码编辑成为可能

Seedream 3.0 填充:OneReward 使下一代掩码编辑成为可能

三个要点
✔️ OneReward 采用单一 VLM 奖励模型,以统一的方式学习多任务图像编辑
✔️ Seedream 3.0 Fill 实现了图像填充、扩张、移除和文本绘制的高精度,而无需 SFT
✔️ 实验表明,其性能优于商业和开放源码软件模型,尤其是在扩张和移除方面。

OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
written by Yuan GongXionghui WangJie WuShiyin WangYitong WangXinglong Wu
(Submitted on 28 Aug 2025)
Comments: project url: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本文提出了一个新颖的强化学习框架 OneReward,用于综合处理图像生成中的多个编辑任务。

传统的图像编辑模型通常是专门针对个别任务(如内画(填充)、外画(增强)、对象移除和文本渲染)进行训练的,由于每个任务的数据分布和评估标准不同,限制了其通用性。

此外,传统的基于人类偏好的强化学习(RLHF)需要针对每个任务和评估维度建立不同的奖励模型,这对训练效率和一致性提出了挑战。

通过使用 VLM 作为唯一的奖励模型,本研究中的 OneReward 可以实现符合人类偏好的一致评价,同时区分任务和评价标准。
这样就能将不同的任务整合到一个统一的编辑模型中,创建一个兼具效率和性能的创新框架。

此外,应用该框架开发的 Seedream 3.0 Fill 在性能上优于最先进的商业和开源模型。

建议的方法

OneReward 的核心机制是使用单一 VLM 作为奖励模型,综合处理多个任务和多维评价标准。

OneReward 将任务 ID 和评价标准嵌入评价查询中,并确定哪个 VLM 更适合输入图像对。
这种基于比较的设计允许在保留不同评价维度之间不一致性的同时进行训练。

在学习过程中,现有的扩散模型被用作参考模型,而策略模型则与部分去噪生成的图像进行比较。
在此过程中,奖励模型使用二进制 "是/否 "输出来确定哪些图像符合人类偏好,并将这一概率作为强化学习的信号。

这样,该模型就能在多任务环境中同时学习多维偏好,并实现统一的性能提升,而无需额外的特定任务 SFT(监督微调)。

实验

作者将使用 OneReward 训练的 Seedream 3.0 Fill 的性能与最先进的模型(如 Adobe Photoshop、Ideogram 和 Flux Fill [Pro])进行了比较。

评估在四个主要任务中进行:图像填充、增强(有/无提示)、对象移除和文本渲染,从多个维度进行测量,包括可用率、文本一致性、结构一致性、美学质量和移除质量。
结果表明,Seedream 3.0 填充法在所有任务中的表现都优于现有方法,特别是在图像增强(无提示)中,可用率达到 87.54%,明显优于其他模型。

此外,在物体去除方面,它的去除质量高达 86.33%,生成的不需要的物体最少。
此外,在基于人工评估的 "好-同-坏 "测试中,与基本模型相比,带有 OneReward 的模型显著提高了 "好 "决策的比例。

这些实验表明,OneReward 可以通过单一奖励模型有效地完成各种编辑任务,从而实现统一的高性能图像编辑。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们