赶上最新的AI论文

提出一种新的图像编辑方法

提出一种新的图像编辑方法 "模仿编辑"--MimicBrush

图像编辑

三个要点
✔️ 关于新编辑管道的建议,该管道使用遮罩源图像和参考图像作为输入,模仿参考部分并自然填充遮罩区域
✔️ 构建 "MimicBrush "框架,该框架使用两个 U-Nets 通过自我监督学习恢复源图像的遮罩区域 &。nbsp;

✔️ 通过建立涉及两个任务(零件合成和纹理转移)的高质量基准,系统地评估所提出方法的性能

Zero-shot Image Editing with Reference Imitation
written by Xi ChenYutong FengMengting ChenYiyang WangShilong ZhangYu LiuYujun ShenHengshuang Zhao
(Submitted on 11 Jun 2024)
Comments: 
this https URL.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

图像编辑用于为各种目的创建新内容,包括添加新对象、更改属性和转换图像样式。扩散模型可从预先训练的大型文本中生成图像,其最新进展大大提高了图像编辑能力。因此,能够自由编辑整个图像或部分图像以满足各种用户需求的前景越来越广阔。

然而,现有的图像编辑模型难以处理复杂的编辑,并带来各种实际挑战。例如,在产品设计、角色创建和特效等现实应用中,参照其他鞋的鞋底改变鞋的设计或在杯子上附加特定图案等编辑工作非常重要。对于此类局部编辑,源图像通常使用二进制掩码进行编辑,因此仅使用文本很难达到预期效果

传统的基于合成的方法使用参考图像作为输入,用遮罩或方框表示参考区域,然后将 "单个对象 "从参考图像插入源图像中。然而,这种方法很难处理鞋底或头发等局部元素,或徽标或纹理等局部图案,因为必须从图像中精确提取参考区域。此外,局部元素与整体上下文交织在一起,将它们分开就无法正确理解信息

为了应对这些挑战,本文提出了一种名为 "模仿编辑 "的新型编辑管道。该方法将遮罩源图像和参考图像作为输入,并自动查找和模仿参考图像中的相应部分,以填充遮罩区域。这样就能实现更灵活的交互,而无需将参考元素与整个图像严格分开。

为了实现这种模仿编辑,本文进一步设计了一个名为 "MimicBrush "的框架,它使用两个 U-网络,即"模仿 U-网络 "和"参考 U-网络"(扩散模型)来处理源图像和参考图像。MimicBrush 可应对不同的方向、光照和类别,生成的区域既能与背景保持平衡,又能与源图像自然结合。与背景保持平衡,同时保留图像的视觉细节。

此外,论文还建立了一个高质量的基准来评估所提出的方法。该基准包括两个主要任务--部件组合和纹理转移,并包含时装和产品设计等实际应用的子轨道。

MimicBrush 架构

下图是 MimicBrush 的概览。该框架使用两个 U-网络(扩散模型),即模仿 U-网络和参考 U-网络,进行自我监督学习。MimicBrush 使用两个随机选择的帧作为训练样本。另一帧用作参考图像,帮助还原被遮蔽的源图像。

这样,MimicBrush 就能学会识别相应的视觉信息(如狗脸),并自然地重新绘制源图像的遮罩区域。MimicBrush 还能学习将视觉内容转换为相同的姿势、光线和视角。这一学习过程是利用原始视频片段完成的,由于不需要文本或跟踪注释,因此可以很容易地进行扩展。

MimicBrush 学习策略

为了最大限度地提高 MimicBrush 模仿图像的能力,论文还提出了如何寻找合适的训练样本的建议。论文指出,为此必须关注两个关键点:源图像和参考图像之间是否存在对应关系,以及源图像和参考图像之间是否存在显著差异。

在训练过程中,对同一视频中的两个帧进行采样。然后使用 SSIM 作为视频帧间相似度的度量,并排除相似度过高或过低的帧对,以确保所选图像对既包含语义对应,又包含视觉可变性。

强大的数据扩展功能用于增加源图像和参考图像之间的可变性。除了主动应用色彩抖动、旋转、调整大小和翻转之外,还实施了随机投影变换,以模拟更强的变形。

在遮罩过程中,源图像被划分为 N x N 个网格,每个网格被随机遮罩。然而,简单的随机遮蔽往往会简化遮蔽结果。例如,如果背景(如草原或天空)中很大一部分是重复的内容或纹理,则不需要参考图像的指导来还原这些区域。为了找到更有用的区域,需要在源图像和参考图像之间进行SIFT匹配,以获得一系列匹配点。论文指出,虽然匹配结果并不完美,但足以建立更好的训练样本。用匹配的特征点掩盖网格的可能性可以得到改善。

由于图像比视频更容易收集,因此扩展应用于静态图像,并使用对象分割的结果对源图像进行遮罩,以构建伪帧。分段遮罩还能提高 MimicBrush 的鲁棒性,因为它支持更多自由形式的遮罩。

MimicBrush 不依赖训练数据的注释。它从视频的一致性和可变性中获取足够的信息,并使用图像来扩展多样性,从而使学习管道更具可扩展性。

MimicBrush 评估基准

由于 "模仿编辑 "是一项新任务,我们建立了自己的基准来系统地评估其性能。如下图所示,应用程序分为 "部件合成 "和 "纹理传输 "两个任务,每个任务都有 Inter-ID 和 Inner-ID轨道

第一个赛道是 "部件合成",评估的是通过寻找源图像和参考图像之间的语义对应关系来合成局部部件的能力;Inter-ID 赛道旨在合成来自不同实例和类别的局部部件。数据收集自不同的主题(时尚、动物、产品、场景)。每个主题从 Pexels 手工收集 30 个样本,共计 120 个样本。每个样本包含一个源图像和一对参考图像。源掩码是手动绘制的,并定义了合成要求。由于生成的结果中没有 "地面实况"(Ground Truth),因此对参考区域进行了注释,并描述了预期结果的文本提示。这样就可以根据 DreamBooth 计算出生成的参考区域与注释的参考区域之间的 DINO、CLIP 图像相似度。此外,还报告了编辑图像与文本提示之间的 CLIP 文本相似度。

此外,还建立了 Inner-ID 轨道,从 DreamBooth 收集 30 对图像,手动屏蔽源图像的可识别区域,并使用参考图像来完成这些图像。参考图像是在不同场景中包含相同实例的图像。这样就可以使用未屏蔽的源图像作为基本真相来计算SSIM、PSNR 和 LPIPS。

第二种是纹理传输,要求严格保留源对象的几何形状,只传输参考图像的纹理和图案。在这项任务中,深度图作为附加条件被启用。与查找语义对应关系的部件配置不同,该任务会屏蔽整个对象,并允许模型查找纹理(参考)和形状(源)之间的对应关系。它还可以设置 Inter-ID 和 Inner-ID 轨迹。

试验

在此,我们将 MimicBrush 与其他类似方法进行比较。模仿编辑是一项新任务,因此现有方法无法完全解决。因此,其他方法允许额外的输入。例如,AnyDoor 和 Paint-by-Example 允许额外输入遮罩和方框来指示参考区域。此外,我们还对最先进的内绘工具 Firefly 进行了详细的文字描述。

定性结果如下图所示,从图中可以看出,Firefly 能够准确地按照指令生成高质量的图像,但在捕捉徽标和纹身等图案的文字提示细节方面存在困难。

此外,"逐例绘制"(PbE)要求以参照区域为中心裁剪参照图像,但这种模式无法保证生成区域和参照区域的保真度,因为参照区域是由单个标记表示的。并对其进行填充,但却无法正确合成。这可能是由于局部部分在脱离上下文的情况下很难理解,而且 AnyDoor 的许多训练样本都是整个物体。另一方面,Ours(MimicBrush)通过让模型本身在整个上下文中学习对应关系,而不使用配对遮罩,从而避免了这一问题,并在用完整的参考图像完成任何部分方面表现出色。

量化结果如下表所示。部件合成(Part Composition)基准测试结果。对于带地面实况的 Inner-ID,MimicBrush 性能更好,即使给其他方法附加了条件;对于 Inner-ID,要找到相应的参考区域比较困难,但与 AnyDoor 相比,MimicBrush 表现出了竞争力。与 AnyDoor 相比,MimicBrush 的性能更具竞争力。不过,AnyDoor 的优势在于它提供了一个参考掩码,这就迫使人们去识别参考区域。

由于评估指标可能不完全符合人类的偏好,本文还进行了一项用户研究:请十位注释者根据本文提出的基准对模型生成结果进行排序。每个样本都从保真度、协调性和质量方面进行了评估。保真度评估的是参考区域保留其独特性的能力,协调性评估的是生成的区域是否能与背景自然结合,质量评估的是生成的区域在最小细节上是否具有高质量。评估结果如下表所示,从表中可以看出,MimicBrush 的得分明显高于其他方法。

本文还进行了一项消融研究,以验证各个组件的有效性:MimicBrush 利用两个 U-网络(扩散模型)分别从源图像和参考图像中提取特征。以前的研究表明,预先训练好的扩散模型有能力捕捉语义对应关系。因此,我们正在测试具有非对称结构的自监督学习管道是否也能学习这种语义对应关系。

从下图的直观对比中可以看出,CLIP 和 DINOv2 也能很好地识别参考区域,但 U-Net 在保存细节方面也表现出色。

下表考察了视频学习管道的有效性。结果发现,如果只使用静态图像,每项任务的成绩都会明显下降。这可能表明,视频中物体的变形和变化对于实现拟态编辑非常重要。研究还发现,去除颜色抖动、大小调整和投影变换会降低部分合成(Part Composition)的性能,尤其是在 Inter-ID 赛道中。这表明,数据扩展对于稳健的语义匹配非常重要。


此外,还考虑了对源图像进行不同的遮挡。简单或随机的遮挡策略会导致许多低质量的训练样本。另一方面,利用 SIFT 匹配来增强遮蔽效果,可以获得更好的性能。

此外,本文还介绍了更多可视化示例,并讨论了不同的应用。如下图所示,可以看出 MimicBrush 可用于不同主题和领域的图像。

第一个例子展示了它在产品设计中的应用。下一个示例展示了珠宝配件;第三个示例展示了它的多功能性,表明它也可用于背景和自然效果。

摘要

本文介绍了一种新型图像编辑技术--仿真编辑(ImitativeEditing),只需简单的交互操作即可完成。在这项技术中,用户只需在源图像中标出要编辑的区域,并提供包含所需视觉元素的参考图像,MimicBrush 就会自动找到相应的参考区域,以完善源图像。

为了实现模仿编辑,我们设计了一个自我监督学习管道,它能最大限度地提高视频的一致性和可变性,并利用一帧画面来还原另一帧画面的遮蔽区域。应用。它还为全面评估模仿编辑建立了基准。这项全新的沉浸式编辑技术有望帮助许多人进一步拓展他们的创造力。

不过,尽管 MimicBrush 显示出了强大的性能,但如果参考区域太小或参考图像中有多个候选区域,它可能无法准确找到参考区域。在这种情况下,用户必须对参考图像进行裁剪,以放大所需的区域。此外,由于 MimicBrush 可以处理范围广泛的图像,因此有可能生成可能对内部产生负面影响的内容。本文作者表示,在使用他们发布的代码和演示时,他们将增加过滤有害内容的功能。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们