新しい画像編集手法「イミテイティブ編集」を実現するMimicBrushを提案

Image Editing 2025年01月16日

3つの要点
✔️ マスクされたソース画像と参照画像を入力として参照部分を模倣し、マスク領域を自然に埋める新しい編集パイプラインの提案
✔️ 2つのU-Netを使用し、自己教師あり学習でソース画像のマスク領域を復元する「MimicBrush」フレームワークの構築
✔️ パート構成とテクスチャ転送の2つのタスクを含む高品質なベンチマークを構築し、提案手法の性能を体系的に評価

Zero-shot Image Editing with Reference Imitation
written by Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao
(Submitted on 11 Jun 2024)
Comments: this https URL.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

画像編集は、新しいオブジェクトの追加、属性の変更、画像スタイルの変換など、さまざまな用途で新しいコンテンツを作成するために利用されています。最近では、大規模な事前学習済みのテキストから画像を生成するDiffusion Modelが進化し、これに伴い、画像編集能力も大幅に向上しています。これにより、画像全体やその一部を自由に編集できるようになり、ユーザーのさまざまな要望に応えることができるようになっており、その期待は高まっています。

しかし、既存の画像編集モデルでは、複雑な編集に対応することが難しく、実用上、様々な課題があるとされています。例えば、靴のデザインを他の靴の靴底を参考に変更したり、特定のパターンをマグカップに貼り付けたりするような編集は、製品設計やキャラクター作成、特殊効果などの現実的なアプリケーションにおいて重要です。このような局所的な編集には、通常、バイナリマスクを使用してソース画像を編集しており、テキストだけで望ましい結果を得るのは難しいのが現状です。

従来のコンポジションによる手法では、参照画像を入力としてマスクやボックスで参照領域を表現し、参照画像から「個別のオブジェクト」をソース画像に挿入することができます。しかし、靴底や髪の毛などの局所的な要素やロゴやテクスチャなどの局所パターンに対応するのは難しく、参照領域を画像から正確に抽出する必要があります。また、局所的な要素は、全体のコンテキストと絡み合っているため、分離すると情報を正しく理解できなくなってしまいます。

このような課題を解決するために、この論文では「イミテイティブ編集」という新しい編集のパイプラインを提案しています。この手法では、マスクされたソース画像と参照画像を入力として、参照画像内の対応する部分を自動的に見つけて模倣し、マスクされた領域を埋めます。これにより、参照する要素を画像全体から厳密に分離することなく、より柔軟なインタラクションを実現することができます。

このイミテイティブ編集を実現するために、この論文では、さらに「MimicBrush」というフレームワークを設計しています。MimicBrushは、「Imitative U-Net」と「Reference U-Net」の2つのU-Net（Diffusion Model）を使用してソース画像と参照画像を処理します。また、自己教師あり学習を行い、動画の2つのフレームをソース画像と参照画像として使用することで、参照領域を自動的に発見し、それをソース画像に自然に組み合わせることを学習します。MimicBrushは、様々な向きや照明、カテゴリの違いに対処し、生成された領域は参照画像の視覚的な詳細情報もしっかりと保持しながら、背景とのバランスを取ることができます。

さらに、この論文では、提案手法を評価するために、高品質なベンチマークも構築しています。このベンチマークには、パート構成とテクスチャ転送という2つの主要タスクが含まれており、ファッションや製品デザインなどの実際のアプリケーションを想定したサブトラックが含まれています。

MimicBrushのアーキテクチャ

下図は、MimicBrushの概要を示しています。このフレームワークでは、「Imitative U-Net」と「Reference U-Net」の2つのU-Net（Diffusion Model）を使用し、自己教師あり学習を行います。下図の動画は、一貫した内容を保ちつつ、同じ犬姿勢を変えるなどの視覚的な変化を含んでいます。MimicBrushは学習サンプルとして、ランダムに選んだ2つのフレームを使用しています。1つのフレームはソース画像として利用し、その一部をマスクします。もう1つのフレームは参照画像として利用し、マスクされたソース画像の復元を支援します。

この方法により、MimicBrushは対応する視覚情報（例：犬の顔）を特定し、ソース画像のマスクされた領域を自然に再描画することを学習します。さらに、視覚的な内容を同じ姿勢、照明、視点に移すことも学習します。この学習プロセスは、元の動画クリップを使用して行われ、テキストやトラッキングの注釈が不要であるため、簡単に大規模化することできます。

MimicBrushの学習戦略

MimicBrushの画像を模倣する能力を最大限に引き出すために、適切な学習サンプルを見つける方法も提案しています。この論文では、そのために「ソース画像と参照画像の間に対応関係が存在すること」と「ソース画像と参照画像の間に大きな変動があること」の2点に着目することが重要であるとしています。

学習では、同じ動画から2つのフレームをサンプリングしています。そして、動画フレーム間の類似性の指標としてSSIMを使用し、選択した画像ペアがセマンティックな対応関係と視覚的な変動の両方を含むことを保証するため、類似性が大きすぎる、または、小さすぎるフレームのペアを除外しています。

ソース画像と参照画像の間の変動を増やすために、強力なデータ拡張を行っています。カラージッター、回転、リサイズ、フリッピングを積極的に適用するだけでなく、ランダムプロジェクション変換を実装して、より強い変形をシミュレートしています。

また、マスクにおいて、ソース画像をN×Nのグリッドに分割し、各グリッドをランダムにマスクしています。しかし、単純なランダムなマスキングでは、マスキング結果が簡単になる傾向があります。例えば、背景（草原や空など）が大きな割合を占め、繰り返しの内容やテクスチャが多い場合、これらの領域を復元させるために参照画像からのガイドは必要ありません。より有用な領域を見つけるために、ソース画像と参照画像間でSIFTによるマッチングを適用し、一連のマッチングポイントを取得しています。この論文では、マッチング結果は完璧ではないものの、より良い学習サンプルを構築するには十分であるとしています。マッチングされた特徴点を持つグリッドのマスキングの可能性を高めることができます。

動画よりも画像を収集する方が簡単であるため、静止画像に対して拡張を適用し、オブジェクトセグメンテーションの結果を利用してソース画像をマスクすることで、疑似フレームを構築しています。セグメンテーションマスクは、より自由な形状のマスクを支援するため、MimicBrushの堅牢性も向上させています。

MimicBrushは学習データのアノテーションには依存しません。動画の一貫性と変動性から十分な情報を取得し、画像を活用して多様性を拡張することで、学習パイプラインをよりスケーラブルにしています。

MimicBrushの評価ベンチマーク

イミテイティブ編集は新しいタスクであるため、その性能を体系的に評価するために独自のベンチマークを構築しています。下図に示すように、アプリケーションを「パート構成（Part Composition）」と「テクスチャ転送（Texture Transfer）」の2つのタスクに分け、それぞれにInter-IDトラックとInner-IDトラックを設定しています。

1つ目のパート構成（Part Composition）は、ソース画像と参照画像の間でセマンティックな対応を見つけ出し、局所部分を合成する機能を評価します。Inter-IDトラックは、異なるインスタンスやカテゴリから局所部分を合成することを目的としています。様々なトピック（ファッション、動物、製品、シナリオ）からデータを収集しています。各トピックで、Pexelsから30サンプルずつ手動で収集し、合計120サンプルを集めています。各サンプルにはソース画像と参照画像のペアが含まれています。ソースマスクを手動で描き、合成要件を定義しています。生成された結果にはグラウンドトゥルース（Ground Truth）がないため、参照領域を注釈し、期待される結果のテキストプロンプトを記述しています。これにより、DreamBoothに従って、生成された領域と注釈された参照領域の間のDINO 、CLIPの画像類似性を計算することができます。さらに、編集された画像とテキストプロンプトの間のCLIPテキスト類似性も報告しています。

Inner-IDトラックも設定し、DreamBoothから30の画像ペアを収集し、ソース画像の識別可能な領域を手動でマスクし、参照画像を使用してそれらを完成させています。参照画像は異なるシナリオで同じインスタンスを含む画像です。このため、マスクされていないソース画像をグラウンドトゥルースとしてSSIM、PSNR、LPIPSを計算することができます。

2つ目のテクスチャ転送（Texture Transfer）は、ソースのオブジェクトの形状を厳密に維持し、参照画像のテクスチャやパターンのみを転送することが要求されます。このタスクでは、追加条件として深度マップを有効にします。セマンティックな対応を探すパート構成とは異なり、このタスクではフルオブジェクトをマスクし、モデルがテクスチャ（参照）と形状（ソース）の間の対応を見つけることができるようにします。また、Inter-IDトラックとInner-IDトラックを設定しています。

実験

ここでは、MimicBrushを他の同様の手法と比較しています。イミテイティブ編集は新しいタスクであるため、既存の手法では完全には対応できません。そのため、他の手法には追加の入力を許容しています。例えば、AnyDoorやPaint-by-Exampleには参照領域を示すためのマスクやボックスを追加で入力しています。また、最先端のインペインティングツールFireflyには詳細なテキスト説明を与えています。

定性結果は下図のようになっています。Fireflyは指示に正確に従い、高品質な画像を生成することはできていますが、ロゴやタトゥーのようなパターンについては、テキストプロンプトで詳細を捉えるのが難しいことがわかります。

また、PbE（Paint-by-Example）は参照領域を中心にしたクロップされた参照画像を必要としますが、このモデルは参照を1つのトークンで表現するため、生成された領域と参照領域の忠実性を保証できていません。AnyDoorには参照領域のマスクを注意深く注釈付けし、それを入力ていますが、適切な合成することはできていません。これは、局所部分が文脈から切り離された場合に理解が難しいことや、AnyDoorの学習サンプルの多くが全体オブジェクトであることが原因と考えられます。一方で、Ours（MimicBrush）はペアのマスクを使用せずにモデル自身が文脈全体で対応を学習することで、この問題を回避し、完全な参照画像で任意の部分を完成させる点で優れた性能を示しています。

定量結果は下表のようになっています。パート構成（Part Composition）のベンチマークの結果です。グラウンドトゥルースがあるInner-IDでは、他の手法に追加条件を与えた場合においてもMimicBrushが優れた性能を示しています。Inner-IDでは、対応する参照領域を見つけるのがより難しくなりますが、MimicBrushはAnyDoorと比較しても競争力のある性能を示しています。ただし、AnyDoorには参照マスクが与えられているため、参照領域を強制的に特定できるという利点があります。

また、評価指標が人間の好みを完全と一致していない可能性があるため、この論文では、ユーザースタディも実施しています。10人のアノテーターに、この論文が提案しているベンチマークでモデルの生成結果をランク付けしてもらっています。各サンプルを忠実度、調和、品質の3つの観点から評価しています。忠実度は参照領域の識別性を保持する能力、調和は生成された領域が背景と自然に合成できるかどうか、品質は生成された領域が細部まで高品質であるかどうかを評価しています。評価結果は下表のとおりです。MimicBrushが他の手法よりも顕著に高い評価を得ていることがわかります。

また、この論文では、様々な構成要素の有効性を検証するためのアブレーションスタディを実施しています。MimicBrushは、2つのU-Net（Diffusion Model）を利用して、ソース画像と参照画像からそれぞれ特徴を抽出します。過去の研究では、事前学習されたDiffusion Modelがセマンティックな対応を捉える能力を持つことが示されてイアmす。そこで、非対称な構造で自己教師あり学習のパイプラインでも、このセマンティックな対応を学習できるかどうかを検証しています。

下図に示されている視覚的な比較からも分かるように、CLIPとDINOv2も参照領域をうまく特定していますが、U-Netも細部の保存において優れた結果を示していることがわかります。

下表では、動画ベースの学習パイプラインの有効性を検証しています。静止画像のみを使用した場合、各タスクの性能が大幅に低下することがわかりました。これは、動画内のオブジェクトの変形や変動が模倣編集を実現するために重要であることを示していると考えられます。また、カラージッター、リサイズ、プロジェクション変換を削除すると、特にInter-IDトラックでパート構成（Part Composition）の性能が低下することが確認されています。これは、堅牢なセマンティック対応のマッチングにはデータ拡張が重要であることを示しています。

また、ソース画像の異なるマスキングについて検討しています。単純あランダムなマスキング戦略は多くの低品質な学習サンプルを引き起こす可能性があります。一方、SIFTのマッチングを活用してマスキングを強化することで、より良い性能を達成しています。

さらに、この論文では、より多くの視覚例を示し、さまざまなアプリケーションについて議論しています。下図に示されているように、MimicBrushはさまざまなトピックやドメインの画像に対応できることがわかります。

最初の例は、製品デザインへの応用を示しています。次の例は、ジュエリーの装着例です。3つ目の例では、背景や自然効果にも対応できることを示しており、その高い汎用性を示しています。

まとめ

この論文では、シンプルなインタラクションで実施できる新しい画像編集「イミテイティブ編集」を紹介しています。この手法では、ユーザーはソース画像に編集したい領域をマークし、望む視覚要素を含む参照画像を提供するだけで、MimicBrushが自動的に対応する参照領域を見つけてソース画像を完成させることができます。

イミテイティブ編集を実現するために、動画の一貫性と変動性を最大限に活用し、1つのフレームを使って別のフレームのマスクされた領域を復元させる自己教師あり学習のパイプラインを設計しています。MimicBrushはさまざまな編集タスクで優れた性能を発揮し、幅広いアプリケーションに対応できます。また、イミテイティブ編集を総合的に評価するためのベンチマークも構築しています。この新しいイミテイティブ編集技術は、多くの人の創造力をさらに広げる手助けになることが期待されます。

しかし、MimicBrushは堅牢な性能を示していますが、参照領域が小さすぎる場合や参照画像に複数の候補が存在する場合には、正確に参照領域を見つけられないことがあります。このような場合、ユーザーは参照画像をクロップして望む領域を拡大する必要があります。また、MimicBrushは幅広い画像に対応できるため、社内的にネガティブな影響を与える可能性のあるコンテンツを生成するリスクもあります。この論文の著者らは、公開するコードやデモを利用する際には、有害なコンテンツをフィルタリングする機能を追加するとしています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。