赶上最新的AI论文

Imagic,一个高清晰度的图像编辑器,可以编辑文本和一个图像

Imagic,一个高清晰度的图像编辑器,可以编辑文本和一个图像

生成图像

三个要点
✔️ 只有一个文本和一个输入图像,实现了与文本一起的高清晰度图像编辑
✔️ 线性插值嵌入两个文本并结合两个信息,实现了与扩散模型的高清晰度编辑
✔️ 适用于各种类型的图像编辑(改变姿势,多物体等),质量高,用途广。

Imagic: Text-Based Real Image Editing with Diffusion Models
written by Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani
(Submitted on 17 Oct 2022)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

在过去的几年里,从文本中生成图像的模型吸引了很多人的注意。许多模型已经发布,包括DALL-E 2、Parti、Imagen、Stable Diffusion和Midjourney,其中一些服务实际上已向公众开放。最近,提供了官方LINE账户 "Drawing Bari Gutto-kun",该账户在通过LINE发送文本时可生成与文本相匹配的图像。

而现在,一种新的图像编辑技术Imagic已经公布,它应用了这些图像生成模型。
目前为止,从文本生成图像的技术已经接二连三地宣布,但这一次一种以高清晰度编辑图像的部分内容以匹配文本的技术。只需一个文本和一个图像就可以实现。

已经有了从
文本和图像编辑图像技术如SDEdit和Text2LIVE但它们能编辑的内容有限,如着色、添加对象和转换图像的风格另外,在输入要编辑的图像时,需要补充信息,如要编辑的区域信息和要准备的同一物体的多个图像。然而,新方法只需要文本和一张图片,不需要补充信息。

下图是用Imagic编辑的图像,这里介绍一下。例如,在顶行左侧的鸟类图像中,如果输入要编辑的输入图像(Input Image)和表示要编辑的内容的文本(Target Text: "A bird spreading wings"),就会生成一个符合文本含义的 "展翅的鸟 "的编辑图像(Edited Image)。一只展翅的鸟 "被生成为编辑过的图像(Edited Image),与文本的含义一致。该图片经过编辑,很好地保留了输入图片中的信息,甚至包括背景、栖息地和鸟类图案的细节。此外,在底排中间的鹦鹉图像中,两只同种鹦鹉分别被编辑,以反映目标文本:"两只接吻的鹦鹉"。这样一来,一个图像中的多个目标就可以按照文本的含义进行编辑,而不会出现混乱。



Imagic是如何工作的?

Imagic包括三个过程(A)、(B)和(C),如下所示。当 "目标文本"(表示如何编辑图像)和 "输入"(即要编辑的图像)被输入时,(A)会得到 "目标文本 "的嵌入(etgt)。然后,使用预先训练好的扩散模型在其邻近地区对etgt进行优化,从而产生 "输入",并得到eopt。此时,如果etgteopt相差太远,Input和Outout之间的分歧将过大,导致不自然的编辑结果。

这个阶段,eopt输入重现性不足所以(b),再次固定eopt,并对扩散模型进行微调这样就可以从eopt产生更准确的输入通过这两个过程,eopt处于一种可以高精度复制的状态,保留了关于输入的详细信息如背景和位置,同时仍然具有接近etgt表现力最后,在(c)中,etgteopt通过线性插值结合起来,通过使用前面微调过的扩散模型,得到了一个精细微妙的输出。


etgteopt的线性插值表示如下:η值是一个超参数,取值在0和1之间。

通过调整η,可以调整输出,如下图所示:η值越接近于0,越接近于eopt(输入)

事实也表明,在(b)中对扩散模型进行微调,可以使输入的背景、成分等有更高的可重复性。下图,最上面一行显示的是没有经过微调结果,最下面一行显示的是经过微调的结果η值越接近0,也就是在图的左边,越接近输入但是如果你η=0.000比较上下两行,你会发现详细的信息(背景等)是非常不同的下面的 "微调 "是最重要的。可以看出,较低的"带微调 "能更好地保留输入信息

Imagic的表现如何?

首先,作为一种定性评价,对不同类型的编辑进行测试,如下图所示。从最上面一行开始,分别显示了为姿势编辑的图像、为组件编辑的图像、为多个对象编辑的图像、带有额外组件的图像、为风格编辑的图像和为颜色编辑的图像的结果。所有的编辑都是不舒服的,显示出非常高的性能。

下图显示了为同一图像输入不同文字的结果。可以看出,两个文本都产生了高分辨率的图像,这也意味着该系统是通用的,可用于各种编辑。

Imagic还使用了扩散模型,该模型是概率性的,因此对于相同的文本和图像可能会产生不同的结果。下图显示了由不同的随机种子产生的图像(每个种子的η是微调的

此外,在这方面也研究了不同种子和η值之间的关系,如下图所示。在下图中,不同种子的图像编辑结果显示在上行、中断和下行。从中可以看出,不同的种子似乎会产生适合于不同η值的编辑。可以看出,上排跳跃开始η=0.800,在中排和下排跳跃开始η=0.700。在下行中,也出现η=0.700-0.800有时会引起与输入图像相反方向的跳跃

论文作者还说,自然语言文本具有模糊的不精确性,而这种概率性使其更容易通过生成几个备选方案来使用。

Imagic仍未完成?还有限制?

上述情况表明,Imagic在各种定性评估中都表现出了很高的性能。然而,与此同时,它也显示了失败的例子,如下图所示。例如,如顶行所示,结果可能不适合整个图像"。在 "一张交通堵塞的照片 "中,图像的某些区域反映了交通堵塞的情况。然而,其他车道却剑拔弩张,编辑并没有反映出交通堵塞的情况。在 "一只躺着的狗 "中,对狗的剪辑在一定程度上起了作用,但它后面的盒子却消失了,所以整体上的剪辑并不尽如人意。
此外,虽然编辑本身应用得当,但缩放和相机角度有时会受到影响。例如,在底排左侧的 "一辆赛车的照片 "中,数字编号被添加到汽车上,使其看起来像一辆赛车,图像被编辑成20世纪的汽车比赛,但汽车被移到了远处的位置。另外,在底排右侧的 "带意大利香肠的比萨饼 "中,意大利香肠已被添加,没有任何差异,但比萨饼已被放大,图像被裁剪。虽然系统擅长以这种方式编辑微妙的细节,但似乎整个图像都会被破坏。

编辑结果也与其他主要技术(SDEdit、Text2LIVE)进行了比较这些技术允许用单个文本和图像进行图像编辑,如下图所示从这些结果可以看出,与其他技术相比,Imagic能够在整齐地保留原始图像的细节信息的同时,进行高度精确、细致和微妙的编辑。

摘要

本文提出了一种新的图像编辑方法,称为Imagic。 它只用一张 要编辑图片 和指示要编辑的 内容的文字,就能实现非常微妙和细微的编辑

使用预先训练好的扩散模型,它找到一个能很好地代表输入图像的文本嵌入,然后微调扩散模型以更好地适应图像,最后,它找到一个很适合输入图像的嵌入并编辑在对传达目标的文本嵌入进行线性插值后,扩散模型产生了编辑过的图像。

与本文中的其他编辑方法相比,它允许更广泛的灵活编辑,如按要求摆放、塑造和合成图像,此外还有简单的编辑,如风格和颜色。而这些都是在只有一个文本和一个图像的情况下实现的,不需要图像掩码等辅助性输入

在未来,有可能开发出根据所需编辑自动选择η等方法,使编辑工作更加高效。在生产现场用Photoshop对视频和静态图像进行更有效的编辑和处理,预计将变得更加高效。

然而,另一方面,对社交网站上发布的视频和静态图像的编辑和处理可能会变得更容易和更复杂。深度造假等问题尚未得到解决,深度造假技术和检测技术之间的斗争仍在继续。而虚假信息的受害者数量也在增加。该技术非常有用,并有望在不久的将来被引入,但在享受便利的同时,其使用情况将继续被争论。

有些代码是可用的,请试一试吧!

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们