![[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/January2024/set-of-mark_prompting.png)
[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力
三个要点
✔️ 提示技术增强 GPT-4V 的图像识别能力
✔️ 预先对输入图像进行简单分割和标记
✔️ 捕捉图像中物体之间的关系
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
written by Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
(Submitted on 17 Oct 2023 (v1), last revised 6 Nov 2023 (this version, v2)])
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
研究概况
最近,ChatGPT 的付费版本配备了 GPT-4V,它也可以处理图像。因此,ChatGPT 用户可以输入图片作为提示,并向 ChatGPT 提出相关问题。
然而,传统的 GPT-4V 无法很好地捕捉图像中物体之间的关系。
因此,微软研究团队开发了 "标记集视觉提示"(Set-of-Mark Visual Prompting,简称 SoM),以提高捕捉对象间此类关系的能力。例如,下图右侧显示的是使用我们的 SoM 后 GPT-4V 的输出结果,左侧显示的是未进行任何创新的输出结果。
右图显示,对象被分割开来,每个对象都做了标记。此外,GPT-4V 对话结果显示,有 SoM 的是正确的,没有 SoM 的是错误的。
让我们在下一节看看 SoM 是如何实现的。
标记集视觉提示概述
SoM 机制非常简单,包括以下步骤
- 使用名为 SoM 的物体检测模型对图像中的物体进行分割。
- 用 SoM 标记每个区段
- 输入经 SoM 处理的图像到 GPT-4V
- 在 GPT-4V 端像往常一样输入提示语句。
简而言之,通过使用语义分割将图像划分为多个区域并标记每个区域,"我们可以让 GPT-4V 更容易地识别每个对象的位置关系",仅此而已。
这项研究的重点是,只要对输入到 GPT-4V 的图像稍作修改,就能提高 GPT-4V 的图像识别能力。
下图概述了 SoM。
如下图所示。
- 提示文本:下部中心 问题 "你能数出篮子里有多少种水果吗?
- 输入图像:围绕中心的苹果图像。
- 普通 GPT-4V 的输出:最右边的输出图
- SoM 的 GPT-4V 输出:最左边的输出图
在这里,无论是否应用 SoM,都使用相同的提示语句。
如果直接向 GPT-4V 输入 "显示多个苹果的图像",GPT-4V 将输出错误答案,如图右侧所示。
另一方面,如果通过 SoM 对该图像进行分割和标记,并将标记了物体的图像输入 GPT-4V,GPT-4V 将输出正确答案,如图左侧所示。
了解了 SoM 的概况后,现在让我们来看看使用 SoM 的图像分割方法。
图像分割方法
为了正确使用 SoM 提示,需要将输入图像分割成有意义的区域。为此,本研究采用了以下模型。
- 面具迪诺
- SEEM
- 萨姆
- 语义-SAM
如上图所示,需要分割的区域随分割模型的不同而变化,因此有必要进行比较研究。
标记方法
在对图像进行分割并将其划分为有意义的区域后,会在每个区域上生成一个标记。这里需要考虑以下两点
- 标记类型。
- 标记位置。
不同形式的标记都会考虑在内,如字母、数字、方框、遮罩边框等。当然,这些标记必须能被 GPT-4V 轻松识别。
如何在每个区域放置标记也很重要。基本方法是将标记放在每个区域的中心,但这可能导致区域重叠。
为了避免这种重叠,我们提出了以下标记放置算法
该算法首先计算遮罩的区域,并按升序排序。然后确定每个区域的最佳标记位置。
DT(r) 对区域 r 进行距离变换,计算每个像素距离区域边界的距离。arg max(D) 从距离变换得到的距离图 D 中找出最大值的位置。这就是区域的中心点 c。
对每个区域都要进行这一操作,以确保没有重叠,并确定每个区域的中心,在其中心处进行标记。
通过这种方式预处理图像,您可以与 GPT-4V 进行如下交互。
试验
实验细节
本研究的比较实验使用了以下基准
它还通过与默认的 GPT-4V 基线进行比较,验证了拟议的 "一组标记"(SoM)提示的优势。
此外,还对最先进的开源 LMM LLaVa-1.5 进行了定量评估,并与 MiniGPT-v2 进行了定性比较。这些模型都是通过目标视觉任务的大量数据进行训练的。这项研究首次比较了视觉基准测试中的闭源和开源 LMM。
此外,针对每项分割任务,GPT-4V 还与 MaskDINO 和 OpenSeeD 等各种模型进行了比较。
结果
定量评估的结果如下。
结果表明,本研究中将 SoM 应用于 GPT-4V 的策略性能最佳。
摘要
在 GPT-4V 中应用标记集(Set-of-Marks,SoM),即在图像的特定区域叠加符号标记,可以发挥 GPT-4V 的图像识别能力,正如本研究中所建议的那样。
SoM 可望促进未来 LMM 中多模态提示的研究,并为多模态通用人工智能(AGI)铺平道路。
与本文相关的类别