テキストと画像1枚で高精細な画像編集を実現する「Imagic」とは！？

Image generation 2022年11月07日

3つの要点
✔️ テキストと入力画像1枚のみ、テキストに沿った高精細な画像編集を実現
✔️ 2つのテキストのEmbeddingを線形補間し、2つの情報を合成することでDiffusion Modelによる高精細な編集を実現
✔️ 様々な種類の画像編集（ポーズの変更、複数のオブジェクトの編集など）に適用可能、高い品質と汎用性を実現

Imagic: Text-Based Real Image Editing with Diffusion Models
written by Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani
(Submitted on 17 Oct 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

ここ数年、テキストから画像を生成するモデルが注目を集めています。「DALL·E 2」「Parti」「Imagen」「Stable Diffusion」「Midjourney」など、多くのモデルが発表されており、中には、一般のユーザーが実際に利用できるサービスもあります。最近では、LINEでテキストを送信すると、テキストに合った画像を生成するLINE公式アカウント「お絵描きばりぐっどくん」も提供されています。

そして、今回、これらの画像生成モデルを応用した画像編集技術「Imagic」が新たに発表されました。これまで、テキストから画像を生成する技術が立て続けに発表されてきましたが、今回は、画像の一部をテキストに合わせて高精細に編集する技術です。テキストと画像1枚のみで実現することができます。

これまでも「SDEdit」「Text2LIVE」など、テキストと画像から画像を編集する技術はありましたが、色を塗ったり、オブジェクトを追加したり、画風を変換するなど、編集できる内容が限られていました。あるいは、編集したい画像を入力する際に、編集する箇所の情報、同じ対象物の複数枚の画像を用意するなど補足情報が必要でした。しかし、今回の手法で必要な入力情報は、テキストと画像1枚のみで、これらの補足情報は不要です。

下図は、今回紹介する「Imagic」で編集した画像です。例えば、上段左の鳥の画像では、編集したい入力画像（Input Image）と、編集内容を指示するテキスト（Target Text:"A bird spreading wings"）を入力すると、編集された画像（Edited Image）として、テキストの意味に沿った「羽を広げた鳥」の画像が生成されています。背景や止まり木、鳥の模様など細部に至るまで、入力画像（Input Image）の情報を非常によく保持した形で画像が編集されています。さらに、下段中央のオウムの画像では、同じ種類の2羽のオウムがそれぞれ、Target Text:"Two kissing parrots"を反映するように編集されています。このように1枚の画像に複数の対象物が存在していても、混乱することなく、テキストの意味に沿った編集をすることができます。

Imagicの仕組みは？

Imagicは、下図のように（A）（B）（C）の3つのプロセスで構成されています。画像をどのように編集するのかを表す「Target Text」と編集する画像である「Input」が入力されると、（A）では、「Target Text」のEmbedding（e_tgt）を取得します。そして、事前学習済みのDiffusion Modelを利用して、「Input」が生成されるようにe_tgtをその近傍で最適化し、e_optを取得します。この時、e_tgtとe_optが離れ過ぎてしまうと、InputとOutoutの乖離が大きくなり、不自然な編集結果になってしまうようです。

この段階では、e_optはInputの再現性が不十分であるため、（B）で改めて、e_optを固定してDiffusion ModelをFine-Tuneすることで、e_optからより高精度なInputが生成できるようにします。この2つのプロセスで、e_optは、e_tgtに近い表現力を持ちつつ、背景や配置などInputの詳細な情報も保持し、高精度に再現できる状態になります。最後に（C）で、e_tgtとe_optを線形補間して合成し、先ほどFine-TuneしたDiffusion Modelを利用することで精細かつ微妙なOutputを得ることができます。

e_tgtとe_optの線形補間は、以下のように表されます。η値は0から1の値を取るハイパーパラメータです。

ηを調整することで下図のようにOutputを調整することができます。η値が0に近づくほど、e_opt（Input）に近づきます。

また、（B）でDiffusion ModelをFine-Tuneすることで、Inputの背景や構成などの再現性が高くなることも示されています。下図では、上段が「Fine-Tune無し」、下段が「Fine-Tune有り」での結果を表しています。η値が0に近づくほど、つまり、図の左に行くほどInputに近づくわけですが、η=0.000で上下を比較すると、詳細情報（背景など）が大きな違っていることがわかります。下段の「Fine-Tune有り」の方が、Inputの情報をよく保持していることがわかります。

Imagicの性能は？

まず、定性評価として、下図のように、様々な種類の編集を試しています。上段からそれぞれ、姿勢を編集した画像、構成要素を編集した画像、複数の対象物を編集した画像、構成要素を追加した画像、画風を編集した画像、色を編集した画像の結果を示しています。いずれの編集も違和感がなく、非常に高い性能であることがわかります。

次に、下図は同じ画像に対して異なるテキストを入力した結果を示しています。いずれのテキストに対しても高精細な画像が生成されており、あらゆる編集に対応でき、汎用性が高いこともわかります。

また、Imagicでは、Diffusion Modelを利用しており、確率論的であるため、同じテキストと画像に対して異なる結果を生成する可能性があります。下図は、異なるランダムなシードによって生成された画像です（各シードにおけるηは微調整されている）。

さらに、この点について、下図のように異なるシードとη値の関係性も調べています。下図では、上段・中断・下段と異なるシードによる画像編集結果を表しています。ここから分かるように、異なるシードでは、異なるη値で目的にあった編集がされているようです。上段はη=0.800、中段・下段はη=0.700でジャンプし始めていることがわかります。また、下段においては、η=0.700〜0.800で入力画像とは真逆の方向にジャンプしてしまうこともあるようです。

論文の著者は、自然言語のテキストには、あいまいな不正確性があり、この確率性によって、いくつかの選択肢を生成することで利用しやすくなるとも言っています。

Imagicは、まだ不完全？限界も？

以上のように、Imagicは、種々の定性評価において高い性能を示していることがわかります。しかし、同時に下図のように失敗例も示しています。例えば、上段のように、画像全体としてみると、うまく適合しているとは言えない結果になることもあるようです。"A Photo of a traffic jam"では、画像の一部の領域では、渋滞の様子が反映されいます。しかし、他のレーンはガラガラで渋滞を反映した編集とは言えません。また、"A dog lying down"では、犬の編集に限ってはある程度うまくいっているものの、後ろのボックスが消えてしまい、やはり全体としてはうまく編集できているとは言えません。
また、編集自体は適切に適用されるものの、ズームやカメラアングルなどが影響を受けてしまうこともあるようです。例えば、下段の左の"A photo of a race car"では、レーシングカーのようにゼッケン番号が車に追加され、1900年代のカーレースのような画像に編集されていますが、その一方で、車が遠い位置に変わってしまっています。また、下段の右の"Pizza with pepperoni"でも、Pepperroniが違和感なく追加されていますが、ピザが拡大され、画像がトリミングされてしまっています。このように細部の繊細な編集が得意な一方で画像全体が崩れてしまうことがあるようです。

また、下図のように、テキストと画像1枚で画像編集ができる他の主要技術（SDEdit、Text2LIVE）とも編集結果を比較しています。これらの結果から明らかなように、Imagicは他の手法と比べて、元の画像の詳細な情報をきちんと保持しながら、高い精度で精細かつ微妙な編集ができることがわかります。

まとめ

この論文では、Imagicと呼ばれる新しい画像編集手法を提案しています。編集したい内容を指示するテキストと編集したい画像1枚のみで、非常に繊細な微妙な編集を実現しています。

事前学習済みのDiffusion Modelを使って、入力画像をうまく表現できるようなテキストのEmbeddingを見つけ、Diffusion ModelをFine-Tuneして画像によりよく適合させた後、最後に、入力画像にうまく適合したEmbeddingと編集目的を伝えるテキストのEmbeddingを線形補間した上で、Diffusion Modelによって編集画像を生成しています。

この論文では、他の編集方法とは対照的に、スタイルや色などの単純な編集に加えて、要求に応じて画像のポーズ、形状や構成などより幅広い柔軟な編集を実現しています。そして、これらを、画像マスクなどの補助入力を必要とせずに、テキストと画像1枚のみで可能にしています。

今後、求められた編集に合わせてηを自動的に選択し、より編集を効率化していく方法などの開発も進めていくようです。制作現場でのPhotoshopによる動画・静止画の編集や加工の効率化がますます期待されます。

しかし、その一方で、SNSに投稿する動画・静止画の編集や加工が、より容易により巧妙になっていくと思われます。デープフェイクなどの問題も未だ解決されておらず、デープフェイク技術とそれを見破る技術のいたちごっこが続いています。そして、フェイク情報の被害も増加している状況です。非常に有用性が高い技術で、今度の導入が期待されますが、利便性を享受する一方で、その使い方は、引き続き議論が必要になるでしょう。

いくつかコードも公開されているので、ぜひ試してみてください！

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。