赶上最新的AI论文

InstructPix2Pix:用户导向图像编辑模式的出现

InstructPix2Pix:用户导向图像编辑模式的出现

计算机视觉

三个要点
✔️InstructPix2Pix 是一种根据人类指令编辑图像的建议方法
✔️ InstructPix2Pix 使任何人都能根据指令轻松编辑图像。

✔️ 可进行多种编辑,包括更换对象、改变季节和天气、更换背景、改变材料属性和艺术变换。

InstructPix2Pix: Learning to Follow Image Editing Instructions
written by Tim BrooksAleksander HolynskiAlexei A. Efros
(Submitted on 17 Nov 2022 (v1), last revised 18 Jan 2023 (this version, v2))
Comments: Project page with code: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Graphics (cs.GR); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本文提出了一种根据人类指令编辑图像的方法。给定一份带有具体说明的文档,模型就会相应地修改图像。为了获得大量编辑图像所需的训练数据,我们使用了一个结合语言模型(GPT-3)和图像生成模型(稳定扩散)的预训练模型。然后使用条件扩散模型 InstructPix2Pix 来训练生成的数据,并将其推广到真实图像和用户说明中。该模型可快速编辑图像,无需微调或修改,只需几秒钟。对各种输入图像和指令都能实现令人信服的编辑效果。

这项创新技术有望彻底改变传统的图像编辑流程。传统方法需要专业知识和手工操作,耗时耗力,但有了 InstructPix2Pix,任何人都可以根据说明轻松编辑图像。这种新方法极大地扩展了创造力和表现力的范围,能够快速创建定制图像,以满足不同的需求。此外,结合机器学习和自然语言处理的最新进展,人机协作将进一步发展,并开辟新的创造可能性。

导言

由于难以获得大量训练数据,该技术将大型语言模型(GPT-3)与文本到图像模型相结合,生成指令/图像对数据集。这些模型同时捕捉语言和图像知识,并生成训练数据。生成的配对数据用于训练条件扩散模型,该模型给定输入图像和如何编辑图像的文字说明。这些模型可直接执行图像编辑,无需额外调整。此外,根据训练数据,该模型对真实图像和自然指令都能有效工作。该模型可实现直观的图像编辑,并允许进行各种编辑,如对象替换和样式更改。下图展示了更换对象、更改图像风格、更改设置和艺术媒介等示例。

相关研究

最近的研究表明,通过结合大型预训练模型,有可能解决复杂的多模态任务。这涉及大规模语言模型(如 GPT-3)和文本到图像模型的使用。组合这些模型的方法包括联合微调、通过提示进行交流以及组合基于能量的模型。与这些方法类似,本研究利用预训练模型生成多模态训练数据。图像编辑模型还包括侧重于传统编辑任务的模型和使用文本指导图像编辑的模型。我们的方法很新颖,它不同于传统的基于文本的图像编辑,因为它允许根据指令进行编辑。这种方法的主要优势在于,用户可以通过自然文本精确地指导编辑。我们提出的另一种方法是使用生成模型生成训练数据,从而获取大量训练数据。

InstructPix2Pix

所提出的方法将图像编辑作为一个监督学习问题来处理。下图是一个概览图。

首先,它生成一个由文本编辑指令和图像组成的训练数据集。然后,它训练一个图像编辑扩散模型,根据文本编辑指令生成编辑后的图像。

生成多模态训练数据集将大型语言模型与文本到图像模型相结合,生成包含文本编辑说明以及编辑前和编辑后图像的数据集。然后使用大型语言模型捕捉图像标题,生成编辑说明和编辑后文本标题。

此外,文本到图像模型用于将标题对转换为图像对。在此过程中,使用提示到提示方法来生成相似的图像。提示到提示方法是一种用于调整文本生成模型的技术。语言模型通常根据单个文本提示(输入)生成文本,而提示到提示方法则使用两个不同的提示来调整模型。具体来说,"提示到提示 "法向模型提供两个不同的提示,并比较模型对每个提示的输出。这种比较可以提高模型的一致性和稳定性。此外,"提示到提示 "还能增加生成文本的多样性。下面是有 "提示到提示 "和没有 "提示到提示 "的模型的比较。

训练包括训练一个条件扩散模型,该模型可根据书面指令编辑图像。该扩散模型经过训练后可估算数据分布的得分并生成数据样本。

最后,在不使用分类器的情况下,利用扩散引导对生成样本的质量和多样性进行权衡。这样可以提高条件图像生成的质量,并生成更合适的相应样本。在下图中,sI控制与输入图像的相似度,而 sT控制与编辑指令的一致性。

结果

它显示了基于各种编辑和指令的图像编辑结果。本研究中的模型能够进行各种编辑,包括替换物体、改变季节和天气、替换背景、改变材料属性和艺术转换。

与 SDEdit 和 Text2Live(以前的技术)相比,我们的方法遵循编辑说明,但与以前的方法不同的是,它需要 "编辑 "文本标题,而不是图像描述。SDEdit 在样式改变而内容基本保持不变时效果很好它运行良好,但在需要进行重大更改时会产生问题。另一方面,Text2Live 可以产生令人信服的结果,但限制了编辑的类别。

此外,下图中的定量比较显示,我们的方法在相似度和编辑质量方面都优于 SDEdit。蓝色是本研究的技术。

选择数据集大小和引导比例的消融结果表明,缩小数据集的大小会降低进行大量编辑的能力,只能进行细微的调整。结果还显示,编辑的强度和图像的一致性可以通过调整引导来调整。

结论

这项研究展示了如何将大规模语言模型与文本到图像模型相结合,生成用于训练按照指令进行扩散模型的数据集。该方法允许进行各种编辑,但仍有一些局限性。这是因为它受到所生成数据集和所用扩散模型质量的限制。对新编辑进行归纳并建立正确关联的能力也受到所使用的扩散模型和模型创建指令能力的限制。特别是,他们在物体计数和空间推理方面可能会遇到困难。此外,本研究使用的方法和模型存在偏差,这可能会反映在编辑后的图像中。为了克服这些局限性,需要对如何解释指令、如何将指令与其他调节格式相结合以及如何对指令进行评估进行研究。此外,结合人类反馈来改进模型也很重要。

未来的重要前景包括模型的改进和扩展、人的反馈的整合、与其他调节格式的整合、应用领域的扩展以及伦理方面的考虑。考虑到这些前景,基于指令的图像编辑技术有望得到进一步发展和应用。

 
  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们