ROSE: 副作用を考慮した動画物体除去の新手法とベンチマーク

LLM-Paper 2025年09月25日

3つの要点
✔️ 動画中の物体除去に加え、影・反射・光源など副作用も同時に消去する手法を提案
✔️ Unreal Engineで合成データを作成し、拡散モデルに差分マスク予測を導入して学習
✔️ 新ベンチマークROSE-Benchで検証し、従来法を大幅に上回る性能と汎化性を示した

ROSE: Remove Objects with Side Effects in Videos
written by Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao
(Submitted on 26 Aug 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

概要

本研究は、動画中の物体除去において、物体そのものだけでなく、その存在によって生じる副作用（影・反射・光・透過・鏡像など）を同時に消去することを目的としています。

従来の動画インペインティング手法は物体そのものの削除には有効でしたが、影や反射といった周囲環境への影響を十分に処理できず、不自然な映像を生成してしまう問題がありました。
その背景には、こうした副作用を含むペア動画データ（物体あり／なし）が不足しているという課題があります。

そこで著者らは、Unreal Engineを用いた自動レンダリングパイプラインを構築し、物体の副作用を忠実に再現する大規模な合成データセットを作成。
提案手法ROSEは拡散変換器ベースの動画インペインティングモデルであり、動画全体を入力として副作用を特定する点に特徴があります。

さらに、差分マスク予測による明示的な監督信号を導入し、副作用領域を高精度に捉えることを可能にしました。
加えて、ROSE-Benchという新たなベンチマークを構築し、多様な副作用を含むシナリオで包括的に評価。

実験の結果、ROSEは既存手法を大幅に上回る性能を示し、現実の動画に対しても高い汎化能力を持つことが確認されました。

提案手法

提案手法ROSEは、拡散モデルとトランスフォーマーを基盤とした動画インペインティング手法です。

従来手法はマスク領域をゼロ値で置換して学習する「mask-and-inpaint」方式を採用していましたが、この方法では物体の副作用領域を正確に特定できませんでした。

ROSEでは動画全体を入力として参照し、物体とその環境との相互作用をモデル内部の注意機構に学習させる「reference-based erasing」方式を採用。
これにより、影や反射といった副作用も自然に検出・除去することが可能となります。

また、実運用を想定し、粗い矩形や点注釈など多様なマスク精度を模擬する「マスク拡張」手法を導入。
さらに、オリジナル動画と物体削除後の動画との差分から得られる「difference mask」を学習に利用することで、副作用領域の明示的な局所化を実現しました。
これにより、ROSEは物体そのものだけでなく、環境への影響を正確に把握して修復することができます。

最終的な損失関数は拡散復元損失とマスク予測損失の組み合わせで設計され、両者のバランスによってモデルが安定的に学習するよう調整されています。