赶上最新的AI论文

什么是AI-SCHOLAR？

[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力

[Set-of-Mark Visual Prompting] 提示技术可增强 GPT-4V 的图像识别能力

提示方法 18/01/2024

三个要点
✔️ 提示技术增强 GPT-4V 的图像识别能力
✔️ 预先对输入图像进行简单分割和标记
✔️ 捕捉图像中物体之间的关系

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
written by Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao
(Submitted on 17 Oct 2023 (v1), last revised 6 Nov 2023 (this version, v2)])
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

研究概况

最近，ChatGPT 的付费版本配备了 GPT-4V，它也可以处理图像。因此，ChatGPT 用户可以输入图片作为提示，并向 ChatGPT 提出相关问题。

然而，传统的 GPT-4V 无法很好地捕捉图像中物体之间的关系。

因此，微软研究团队开发了 "标记集视觉提示"（Set-of-Mark Visual Prompting，简称 SoM），以提高捕捉对象间此类关系的能力。例如，下图右侧显示的是使用我们的 SoM 后 GPT-4V 的输出结果，左侧显示的是未进行任何创新的输出结果。

右图显示，对象被分割开来，每个对象都做了标记。此外，GPT-4V 对话结果显示，有 SoM 的是正确的，没有 SoM 的是错误的。

让我们在下一节看看 SoM 是如何实现的。

标记集视觉提示概述

SoM 机制非常简单，包括以下步骤

使用名为 SoM 的物体检测模型对图像中的物体进行分割。
用 SoM 标记每个区段
输入经 SoM 处理的图像到 GPT-4V
在 GPT-4V 端像往常一样输入提示语句。

简而言之，通过使用语义分割将图像划分为多个区域并标记每个区域，"我们可以让 GPT-4V 更容易地识别每个对象的位置关系"，仅此而已。

这项研究的重点是，只要对输入到 GPT-4V 的图像稍作修改，就能提高 GPT-4V 的图像识别能力。

下图概述了 SoM。

如下图所示。

提示文本：下部中心问题 "你能数出篮子里有多少种水果吗？
输入图像：围绕中心的苹果图像。
普通 GPT-4V 的输出：最右边的输出图
SoM 的 GPT-4V 输出：最左边的输出图

在这里，无论是否应用 SoM，都使用相同的提示语句。

如果直接向 GPT-4V 输入 "显示多个苹果的图像"，GPT-4V 将输出错误答案，如图右侧所示。

另一方面，如果通过 SoM 对该图像进行分割和标记，并将标记了物体的图像输入 GPT-4V，GPT-4V 将输出正确答案，如图左侧所示。

了解了 SoM 的概况后，现在让我们来看看使用 SoM 的图像分割方法。

图像分割方法

为了正确使用 SoM 提示，需要将输入图像分割成有意义的区域。为此，本研究采用了以下模型。

面具迪诺
SEEM
萨姆
语义-SAM

如上图所示，需要分割的区域随分割模型的不同而变化，因此有必要进行比较研究。

标记方法

在对图像进行分割并将其划分为有意义的区域后，会在每个区域上生成一个标记。这里需要考虑以下两点

标记类型。
标记位置。

不同形式的标记都会考虑在内，如字母、数字、方框、遮罩边框等。当然，这些标记必须能被 GPT-4V 轻松识别。

如何在每个区域放置标记也很重要。基本方法是将标记放在每个区域的中心，但这可能导致区域重叠。

为了避免这种重叠，我们提出了以下标记放置算法

该算法首先计算遮罩的区域，并按升序排序。然后确定每个区域的最佳标记位置。

DT(r) 对区域 r 进行距离变换，计算每个像素距离区域边界的距离。arg max(D) 从距离变换得到的距离图 D 中找出最大值的位置。这就是区域的中心点 c。

对每个区域都要进行这一操作，以确保没有重叠，并确定每个区域的中心，在其中心处进行标记。

通过这种方式预处理图像，您可以与 GPT-4V 进行如下交互。

试验

实验细节

本研究的比较实验使用了以下基准

它还通过与默认的 GPT-4V 基线进行比较，验证了拟议的 "一组标记"（SoM）提示的优势。

此外，还对最先进的开源 LMM LLaVa-1.5 进行了定量评估，并与 MiniGPT-v2 进行了定性比较。这些模型都是通过目标视觉任务的大量数据进行训练的。这项研究首次比较了视觉基准测试中的闭源和开源 LMM。

此外，针对每项分割任务，GPT-4V 还与 MaskDINO 和 OpenSeeD 等各种模型进行了比较。

结果

定量评估的结果如下。

结果表明，本研究中将 SoM 应用于 GPT-4V 的策略性能最佳。

摘要

在 GPT-4V 中应用标记集（Set-of-Marks，SoM），即在图像的特定区域叠加符号标记，可以发挥 GPT-4V 的图像识别能力，正如本研究中所建议的那样。

SoM 可望促进未来 LMM 中多模态提示的研究，并为多模态通用人工智能（AGI）铺平道路。

与本文相关的类别

Nakata

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。