赶上最新的AI论文

[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力

[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力

提示方法

三个要点
✔️ 提示技术增强 GPT-4V 的图像识别能力
✔️ 预先对输入图像进行简单分割和标记

✔️ 捕捉图像中物体之间的关系

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
written by Jianwei YangHao ZhangFeng LiXueyan ZouChunyuan LiJianfeng Gao
(Submitted on 17 Oct 2023 (v1), last revised 6 Nov 2023 (this version, v2)])
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

研究概况

最近,ChatGPT 的付费版本配备了 GPT-4V,它也可以处理图像。因此,ChatGPT 用户可以输入图片作为提示,并向 ChatGPT 提出相关问题。

然而,传统的 GPT-4V 无法很好地捕捉图像中物体之间的关系。

因此,微软研究团队开发了 "标记集视觉提示"(Set-of-Mark Visual Prompting,简称 SoM),以提高捕捉对象间此类关系的能力。例如,下图右侧显示的是使用我们的 SoM 后 GPT-4V 的输出结果,左侧显示的是未进行任何创新的输出结果。

右图显示,对象被分割开来,每个对象都做了标记。此外,GPT-4V 对话结果显示,有 SoM 的是正确的,没有 SoM 的是错误的。

让我们在下一节看看 SoM 是如何实现的。

标记集视觉提示概述

SoM 机制非常简单,包括以下步骤

  1. 使用名为 SoM 的物体检测模型对图像中的物体进行分割。
  2. 用 SoM 标记每个区段
  3. 输入经 SoM 处理的图像到 GPT-4V
  4. 在 GPT-4V 端像往常一样输入提示语句。

简而言之,通过使用语义分割将图像划分为多个区域并标记每个区域,"我们可以让 GPT-4V 更容易地识别每个对象的位置关系",仅此而已。

这项研究的重点是,只要对输入到 GPT-4V 的图像稍作修改,就能提高 GPT-4V 的图像识别能力。

下图概述了 SoM。

如下图所示。

  • 提示文本:下部中心 问题 "你能数出篮子里有多少种水果吗?
  • 输入图像:围绕中心的苹果图像。
  • 普通 GPT-4V 的输出:最右边的输出图
  • SoM 的 GPT-4V 输出:最左边的输出图

在这里,无论是否应用 SoM,都使用相同的提示语句。

如果直接向 GPT-4V 输入 "显示多个苹果的图像",GPT-4V 将输出错误答案,如图右侧所示。

另一方面,如果通过 SoM 对该图像进行分割和标记,并将标记了物体的图像输入 GPT-4V,GPT-4V 将输出正确答案,如图左侧所示。

了解了 SoM 的概况后,现在让我们来看看使用 SoM 的图像分割方法。

图像分割方法

为了正确使用 SoM 提示,需要将输入图像分割成有意义的区域。为此,本研究采用了以下模型。

  • 面具迪诺
  • SEEM
  • 萨姆
  • 语义-SAM

如上图所示,需要分割的区域随分割模型的不同而变化,因此有必要进行比较研究。

标记方法

在对图像进行分割并将其划分为有意义的区域后,会在每个区域上生成一个标记。这里需要考虑以下两点

  • 标记类型。
  • 标记位置。

不同形式的标记都会考虑在内,如字母、数字、方框、遮罩边框等。当然,这些标记必须能被 GPT-4V 轻松识别。

如何在每个区域放置标记也很重要。基本方法是将标记放在每个区域的中心,但这可能导致区域重叠。

为了避免这种重叠,我们提出了以下标记放置算法

该算法首先计算遮罩的区域,并按升序排序。然后确定每个区域的最佳标记位置。

DT(r) 对区域 r 进行距离变换,计算每个像素距离区域边界的距离。arg max(D) 从距离变换得到的距离图 D 中找出最大值的位置。这就是区域的中心点 c。

对每个区域都要进行这一操作,以确保没有重叠,并确定每个区域的中心,在其中心处进行标记。

通过这种方式预处理图像,您可以与 GPT-4V 进行如下交互。

试验

实验细节

本研究的比较实验使用了以下基准

它还通过与默认的 GPT-4V 基线进行比较,验证了拟议的 "一组标记"(SoM)提示的优势。

此外,还对最先进的开源 LMM LLaVa-1.5 进行了定量评估,并与 MiniGPT-v2 进行了定性比较。这些模型都是通过目标视觉任务的大量数据进行训练的。这项研究首次比较了视觉基准测试中的闭源和开源 LMM。

此外,针对每项分割任务,GPT-4V 还与 MaskDINO 和 OpenSeeD 等各种模型进行了比较。

结果

定量评估的结果如下。

结果表明,本研究中将 SoM 应用于 GPT-4V 的策略性能最佳。

摘要

在 GPT-4V 中应用标记集(Set-of-Marks,SoM),即在图像的特定区域叠加符号标记,可以发挥 GPT-4V 的图像识别能力,正如本研究中所建议的那样。

SoM 可望促进未来 LMM 中多模态提示的研究,并为多模态通用人工智能(AGI)铺平道路。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们