
ROSE:去除视频对象副作用的新方法和基准
三个要点
✔️ 除了去除视频中的物体外,所提出的方法还同时消除了阴影、反射和光源等副作用
✔️ 在虚幻引擎中创建了合成数据,并通过在扩散模型中引入差分掩码预测进行训练
✔️ 使用新的 ROSE-Bench 基准进行了验证,结果表明其性能和通用性明显优于传统方法性能和通用性明显优于传统方法。
ROSE: Remove Objects with Side Effects in Videos
written by Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
(Submitted on 26 Aug 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本研究的目的是在视频对象移除过程中,不仅要同时移除对象本身,还要同时移除因对象存在而产生的副作用(如阴影、反射、光线、透射、镜像)。
传统的视频内画方法能有效去除物体本身,但无法充分处理阴影和反射对周围环境的影响,导致图像不自然。
这是因为缺乏包含这些副作用的成对视频数据(有/无物体)。
因此,作者使用虚幻引擎建立了一个自动渲染管道,以创建一个大型合成数据集,忠实再现物体的副作用。
所提出的 ROSE 方法是一种基于扩散传感器的视频内画模型,其独特之处在于它可以将整个视频作为输入来识别副作用。
此外,它还引入了基于差异掩码预测的显式监督信号,从而能够高精度地捕捉到副作用区域。
此外,还构建了一个新的基准 ROSE-Bench,并在涉及各种副作用的场景中进行了全面评估。
实验结果表明,ROSE 明显优于现有方法,并且对真实世界的视频具有很高的泛化能力。
建议的方法
ROSE 是一种基于扩散模型和变换器的视频内画方法。
传统方法使用 "遮罩-涂抹 "方法,通过将遮罩区域替换为零值来学习,但这种方法无法准确识别物体的副作用区域。
ROSE 采用基于参照的擦除方法,将整个视频作为输入,通过模型内部的注意力机制学习物体与其环境之间的互动。
这使得自然检测和消除阴影和反射等副作用成为可能。
此外,还引入了一种 "遮罩扩展 "方法,以模拟各种遮罩精度,如粗矩形和点注释,以应对真实世界的操作。
此外,从原始视频和移除物体后的视频之间的差异中获得的 "差异掩码 "被用于训练,以明确定位副作用区域。
这使得 ROSE 能够准确识别和修复环境影响以及物体本身。
最终的损失函数设计为扩散修复损失和掩码预测损失的组合,并对两者之间的平衡进行了调整,以确保模型的稳定学习。
实验
实验首先在虚幻引擎生成的 16678 对合成视频上进行训练。
这些视频以 90 帧和 1080p 分辨率在不同场景中创建,包括城市和自然环境,涵盖了阴影、反射、光源、透射和镜像等副作用。
为了进行评估,使用了新构建的 ROSE-Bench。
除了合成数据外,它还使用现有的视频分割数据集 DAVIS 来创建真实的评估对,还包括使用真实视频进行的非对评估。
比较选择了具有代表性的方法,如 DiffuEraser 和 ProPainter。
结果,ROSE 在 PSNR、SSIM 和 LPIPS 等定量指标上明显优于现有方法,在光源和镜像等具有挑战性的副作用方面表现尤为突出。
在使用 VBench 指数进行的真实世界视频评估中,它在背景一致性和运动流畅性方面也获得了很高的分数。
此外,消融研究证实,基于参考的擦除、掩码扩展和差异掩码预测能有效提高性能。
总之,ROSE 是一种最先进的同时去除物体和副作用的方法,其结果超出了传统的限制。
与本文相关的类别