InstructPix2Pix: ユーザーの指示に基づき画像を編集するモデルの登場

Computer Vision 2024年02月28日

3つの要点
✔️ 人間の指示に基づいて画像を編集する方法「InstructPix2Pix」を提案しています。
✔️ InstructPix2Pixを用いることで、誰でも簡単に指示に従って画像を編集することができます。
✔️ オブジェクトの置き換え、季節や天候の変更、背景の置き換え、マテリアル属性の変更、芸術的な変換など、多様な編集を実行できました。

InstructPix2Pix: Learning to Follow Image Editing Instructions
written by Tim Brooks, Aleksander Holynski, Alexei A. Efros
(Submitted on 17 Nov 2022 (v1), last revised 18 Jan 2023 (this version, v2))
Comments: Project page with code: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Graphics (cs.GR); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、人間の指示に基づいて画像を編集する方法を提案しています。具体的な指示が書かれた文書を与えると、モデルはそれに従って画像を変更します。このため、大量の編集された画像が必要なトレーニングデータを取得するために、言語モデル（GPT-3）と画像生成モデル（安定拡散）を組み合わせた事前トレーニング済みモデルを利用しています。その後、条件付き拡散モデルであるInstructPix2Pixを使って、生成されたデータを学習し、実際の画像とユーザーからの指示に一般化します。このモデルは、画像を素早く編集するため、微調整や修正が不要で、数秒で編集が完了します。さまざまな入力画像と指示文に対して、説得力のある編集結果が得られます。

この革新的な技術は、従来の画像編集プロセスに革命をもたらす可能性があります。従来の方法では、専門的な知識や手作業が必要であり、時間と労力がかかりますが、InstructPix2Pixを用いることで、誰でも簡単に指示に従って画像を編集することができます。この新しいアプローチにより、創造性や表現の幅が大きく広がり、さまざまなニーズに合ったカスタマイズされた画像を迅速に作成することが可能となります。さらに、機械学習と自然言語処理の最新の進歩を組み合わせることで、人間とコンピューターのコラボレーションがさらに進化し、新たな創造的な可能性が開かれるでしょう。

導入

この技術では、大量のトレーニングデータを取得するのが難しいため、大規模な言語モデル（GPT-3）とtext-to-imageモデルを組み合わせて、指示と画像のペアのデータセットを生成します。これらのモデルは、言語と画像の両方に関する知識を取得し、トレーニングデータを生成します。生成されたペアデータを使用して、入力画像と編集方法のテキスト指示が与えられると、条件付き拡散モデルをトレーニングします。このモデルは、画像編集を直接行い、追加の調整が不要です。さらに、トレーニングデータに基づいて、実画像と自然な指示の両方に対して効果的に動作します。このモデルにより、直感的な画像編集が可能となり、オブジェクトの置換やスタイルの変更など、さまざまな編集が行えます。以下の図は、オブジェクトの置き換え、画像のスタイルの変更、設定の変更、芸術的媒体などを行っている例です。

InstructPix2Pix

本研究の提案手法は、画像編集を教師あり学習問題として取り組んでいます。以下は概要図です。

まず、テキスト編集命令と画像のペアからなるトレーニングデータセットを生成します。その後、テキスト編集命令から編集後の画像を生成する画像編集拡散モデルをトレーニングします。

マルチモーダルトレーニングデータセットの生成では、大規模な言語モデルとtext-to-image モデルを組み合わせて、テキスト編集指示と編集前後の画像を含むデータセットを生成します。次に、大規模な言語モデルを使用して画像キャプションを取り込み、編集指示と編集後のテキストキャプションを生成します。

さらに、テキストから画像へのモデルを使用して、キャプションのペアを画像のペアに変換します。この際、Prompt-to-Prompt方法を使用して類似した画像を生成します。Prompt-to-Prompt方法は、テキスト生成モデルを調整する際に使用される手法です。通常、言語モデルは単一のテキストプロンプト（入力）に基づいてテキストを生成しますが、Prompt-to-Prompt方法では、2つの異なるプロンプトを使用してモデルを調整します。具体的には、Prompt-to-Promptでは、モデルに異なる2つのプロンプトを提示し、それぞれのプロンプトに対するモデルの出力を比較します。この比較により、モデルの一貫性や安定性を向上させることができます。また、Prompt-to-Promptは、生成されたテキストの多様性を増加させる効果もあります。以下は、Prompt-to-Promptの有無による比較です。

トレーニングでは、書面による指示に基づいて画像を編集する条件付き拡散モデルをトレーニングします。この拡散モデルは、データ分布のスコアを推定してデータサンプルを生成する学習を行います。

最後に、分類子なしの拡散ガイダンスを用いて、生成されたサンプルの品質と多様性をトレードオフします。これにより、条件付けされた画像生成の品質が向上し、より適切に対応するサンプルが生成されます。以下の図のs_Iは入力画像との類似性を制御し、s_Tは編集指示との一貫性を制御します。

結果

様々な編集や指示に基づいた画像編集の成果を示しています。本研究のモデルは、オブジェクトの置き換え、季節や天候の変更、背景の置き換え、マテリアル属性の変更、芸術的な変換など、多様な編集を実行できました。

SDEditやText2Live（従来技術）と比較し、本研究の方法は編集指示に従いますが、以前の方法と比べて、画像の説明ではなく「編集後」のテキストキャプションが必要である点が異なります。SDEditは、スタイルが変更されてもコンテンツがほぼ一定のままでうまく機能しますが、大きな変更が必要な場合には問題が生じます。一方、Text2Liveは説得力のある結果を生成できますが、編集のカテゴリが制限されます。

さらに、以下の図の定量的な比較では、私たちの方法が類似性と編集品質の両方でSDEditよりも優れていることが示されました。青が本研究の技術です。

データセットサイズやガイダンスのスケールの選択に関するアブレーションの結果では、データセットのサイズを小さくすると、大きな編集能力が低下し、微妙な調整のみが行われることがわかりました。また、ガイダンスの調整により、編集の強度や画像の一貫性を調整できることが示されました。

結論

本研究は、大規模な言語モデルとテキストから画像へのモデルを組み合わせ、指示に従う拡散モデルをトレーニングするためのデータセットを生成する方法を示しました。この方法では、様々な編集が可能ですが、まだ多くの制限があります。生成されたデータセットの品質や使用される拡散モデルによって制限されるためです。また、新しい編集に一般化し、正しい関連付けを行う能力は、使用される拡散モデルや命令を作成するモデルの能力によって制限されます。特に、オブジェクトの数を数えたり、空間推論に苦労したりすることがあります。さらに、本研究の手法や使用されるモデルにはバイアスがあるため、編集された画像にもそれが反映される可能性があります。これらの制限を克服するために、指示の解釈方法や他の条件付け形式との組み合わせ方法、評価方法などの研究が必要です。また、人間のフィードバックを取り入れてモデルを改善することも重要です。

今後の展望として、モデルの改善と拡張、人間のフィードバックの統合、他の条件付け形式との統合、応用領域の拡大、そして倫理的な考慮が重要です。これらの展望を考慮しながら、指示ベースの画像編集技術のさらなる発展と応用が期待されます。