
Seedream 3.0 Fill:OneRewardで実現する次世代マスク編集
3つの要点
✔️ OneRewardは1つのVLM報酬モデルで多タスク画像編集を統一的に学習
✔️ Seedream 3.0 FillはSFT不要で画像塗りつぶし・拡張・除去・文字描画を高精度に実現
✔️ 実験では商用・OSSモデルを上回り、特に拡張と除去で高い性能を示した
OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning
written by Yuan Gong, Xionghui Wang, Jie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu
(Submitted on 28 Aug 2025)
Comments: project url: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)
概要
本論文は、画像生成における複数の編集タスクを統合的に扱うための新しい強化学習フレームワーク「OneReward」を提案。
従来の画像編集モデルは、インペインティング(塗りつぶし)、アウトペインティング(拡張)、オブジェクト除去、テキストレンダリングといった個別のタスクに特化して訓練されることが多く、タスクごとのデータ分布や評価基準の違いから汎用性が制限されていたとのこと。
また、従来の人間の嗜好に基づく強化学習(RLHF)は、各タスクや評価次元ごとに異なる報酬モデルを必要とし、学習効率や一貫性に課題がありました。
本研究のOneRewardは、VLMを唯一の報酬モデルとして利用することで、タスクと評価基準を区別しつつ、人間の好みに即した一貫した評価を可能に。
これにより、異なるタスクを一つの統一的な編集モデルに統合することが可能となり、効率性と性能を両立する画期的な枠組みを実現。
さらに、このフレームワークを応用して開発された「Seedream 3.0 Fill」は、商用およびオープンソースの最先端モデルを上回る成果を示しました。
提案手法
OneRewardの中心的な仕組みは、一つのVLMを報酬モデルとして用い、複数のタスクと多次元的な評価基準を統合的に扱うことです。
従来は、テキスト整合性、美的品質、構造的一貫性、除去品質など、基準ごとに個別の報酬モデルを訓練する必要がありましたが、OneRewardでは評価クエリにタスクIDと評価基準を埋め込み、VLMが入力画像ペアに対してどちらが優れているかを判定。
この比較ベースの設計により、異なる評価次元間の矛盾を保持したまま学習を進められます。
学習過程では、既存の拡散モデルを参照モデルとし、政策モデルを部分的なノイズ除去によって生成した画像と比較。
その際、報酬モデルは「Yes/No」の二値出力で人間の好みに沿った画像を判定し、この確率を強化学習の信号として利用します。
これにより、モデルは多タスク環境において多次元的嗜好を同時に学習でき、追加のタスク特化型SFT(Supervised Fine-Tuning)を必要とせずに統一的な性能改善を実現。
実験
著者らは、OneRewardを用いて訓練した「Seedream 3.0 Fill」の性能を、Adobe PhotoshopやIdeogram、Flux Fill [Pro]などの最先端モデルと比較。
評価は画像塗りつぶし、拡張(プロンプトあり/なし)、オブジェクト除去、テキストレンダリングの4つの主要タスクにおいて行われ、利用可能性率(Usability Rate)、テキスト整合性、構造的一貫性、美的品質、除去品質など複数次元で測定されました。
その結果、Seedream 3.0 Fillはすべてのタスクで既存手法を上回り、特に画像拡張(プロンプトなし)ではUsability Rateが87.54%に達し、他のモデルを大きく凌駕しました。
さらに、オブジェクト除去では86.33%の高い除去品質を達成し、不要物を最も少なく生成。
加えて、人間評価に基づくGood–Same–Badテストでも、OneRewardを用いたモデルはベースモデルに比べ「Good」と判定される割合が大幅に増加。
これらの実験は、OneRewardが単一の報酬モデルで多様な編集タスクに有効に機能し、統一的かつ高性能な画像編集を可能にすることを実証しました。
この記事に関するカテゴリー