[ReALM] 基于 LLM 的参考解析，使用屏幕上的实体位置

大型语言模型 31/07/2024

三个要点

✔️ 提出了一种新的参考解析模型 ReALM。与传统的大规模语言模型和参考解析器相比，性能更优越。
✔️ 通过使用实体在屏幕上的位置和仅使用文本对实体进行编码来解决屏幕上的引用问题
✔️ 能够处理多种数据格式，包括屏幕实体、对话实体和背景实体

ReALM: Reference Resolution As Language Modeling
written by André Nitze
(Submitted on 29 Mar 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

在我们的日常对话中，经常会使用 "他们 "和 "它 "等指代表达方式，这些表达方式需要断章取义。理解这些上下文的能力对于用户向语音助理传达他们的需求和推进对话至关重要。对于语音助手的免提体验来说，让用户能够查询他们在屏幕上看到的内容也是非常重要的。

大规模语言建模显示了消除对涉及传统参考表达式理解（参考解析）的多阶段管道需求的潜力。然而，流水线仍然很重要，端到端方法往往无法解决这一问题。特别是，在一些注重隐私或需要在有限的计算资源内高效运行的环境中，使用大型模型可能并不实际。

此外，当模型与应用程序接口集成或需要与上游和下游组件交换信息时，可能需要对大型语言模型和现有管道进行彻底改造。这样就能利用重点模型透明地改进现有的参考解析模块，提高整个系统的可解释性。

此外，本文涉及的参考解析任务还包括用户参考屏幕上和背景中实体的能力，以及与设备直接交互所产生的对话历史。即使大规模语言模型可以隐式地处理这些任务，这种对传统自然语言处理任务的探索也是非常有价值的。

本文提出了一种新颖的方法来分析实体及其在屏幕上的位置，并生成屏幕内容视觉呈现的纯文本表示。这为语言模型提供了上下文，使其了解实体的位置和周围的文本内容。这是首次尝试使用大规模语言模型对屏幕上的上下文进行编码。

工作

本文提出的任务是，根据用户想要执行的任务和相关实体，识别与查询最相关的实体。实体分为三类

屏幕实体：当前在用户屏幕上可见的实体。
对话实体：与对话直接相关的实体。它们可能来自用户之前的陈述（例如，如果用户说 "给妈妈打电话"，则会显示妈妈的联系方式），也可能来自虚拟助理提供的信息（例如位置或警报列表）。
背景实体：不出现在用户的直接视图或对话中，而是来自后台进程的实体（如开始响铃的闹钟或在后台播放的音乐）。

该任务被设置为一个带有大型语言模型的多选题，要求用户从屏幕上显示的实体中输出最合适的选项。答题者也可以选择 "无"。评估允许模型以任何顺序输出实体，例如，如果正确答案是实体 8、7 和 4，那么这些实体的任何顺序都可作为评估结果。这种方法旨在提高模型的灵活性和准确性。

数据集

本文使用的数据集包括在注释者帮助下生成的数据和通过合成生成的数据。每个数据集都包含与用户查询相关联的实体列表，并为每个查询指定了参考实体。实体包括其类型、名称和其他文本信息（如警报标签、时间等）。与屏幕上下文相关的数据还包含该实体的边界框以及其周围的非实体文本元素列表。

在会话数据中，数据收集的重点是用户在与代理交互过程中产生的实体。我们会向评估者提供一张包含复合实体列表的截图，并要求他们创建一个查询，明确指向从列表中任意选择的实体。例如，向评估者提供一个业务列表和一个警报列表，并要求查询指向列表中的特定实体。

对于合成数据，其检索依赖于基于模板的数据生成。当只有用户查询和实体类型能解决引用问题时，这一点尤其有用。生成合成数据使用两个模板。第一个基本模板包含提及、实体和必要的槽值，而第二个语言模板则为基本模板中定义的引用添加查询变体。数据生成脚本使用这些模板生成查询，并替换提及和槽值。

屏幕数据是从各种网页中收集的，包括电话号码、电子邮件地址和物理地址信息。对这些数据的标注分为两个阶段：第一阶段，从屏幕截图中提取查询；第二阶段，根据给定的查询识别实体及其提及。评价器使用截图来确定查询是否指向某个可视实体，以及该查询是否听起来自然，并识别给定查询中提及的实体，标记查询中提及该实体的部分。

模型

本文介绍了所提出的模型 "ReALM"，并对照两种不同的基准方法对其性能进行了评估。一个是不基于传统大规模语言模型的参考解析器 "MARRS"，另一个是最先进的大规模语言模型 "ChatGPT"（GPT-3.5 和 GPT-4）。

Ates 等人（2023 年）提出了MARRS系统，作为非基于大规模语言模型的基准。该系统能够处理屏幕实体以及对话和背景实体。通过对该系统的重新实施，在包含对话、屏幕和合成数据的数据集上进行了训练。

另一个基准是截至 2024 年 1 月 24 日的 ChatGPT 的 GPT-3.5 和 GPT-4 版本。这些模型显示，在屏幕参考解析任务中，尤其是利用包含图像的输入时，性能大幅提升。本文中使用的 ChatGPT 提示和提示+图像组合是作为一种新方法引入的。

本文提出的方法包括使用 FLAN-T5 模型（Chung 等人，2022 年）对大规模语言模型进行微调。分析后的输入被送入模型，并根据默认的微调参数进行优化。在输入模型之前，会对实体进行洗牌，以防止依赖位置的过度学习。

对话式引用分为两类：基于类型的引用和描述性引用。基于类型的引用使用用户查询和实体类型的组合，而描述性引用则使用实体的特定属性进行识别。这种方法可在复杂的实体识别任务中实现较高的准确率。对于屏幕上的引用，上游数据检测器会进行文本分析，以提取相关实体。这些实体仅使用文本编码到语言模型中，并开发了新的算法，以有效地用文本从左到右、从上到下表示屏幕。

这些创新方法旨在为参考解析难题提供更准确、更高效的解决方案。

实验结果

结果如下表所示。总体而言，可以看出，在所有类型的数据集上，建议的模型都优于 MARRS 模型。拟议模型的性能也优于参数数量高出一个数量级的 GPT-3.5。此外，拟议模型还以更轻、更快的模型实现了与最新 GPT-4 相同的性能。

特别值得注意的是屏幕数据集的结果。与使用屏幕截图的 GPT-4 相比，采用文本编码方法的拟议模型取得了几乎相同的性能。此外，使用不同大小的模型进行的实验表明，随着模型大小的增加，性能往往会提高，这种差异在屏幕数据集上尤为明显，这说明了任务的复杂性。

作为案例研究，我们考察了这些模型在未知领域（警报）中的零拍性能。结果证实，基于大规模语言模型的方法优于 FT 模型，尤其是 ReaLM 和 GPT-4 在未知领域的表现非常相似。

根据用户要求进行的微调使 ReaLM 能够更好地理解特定领域的问题。例如，GPT-4 被误解为只与特定设置有关，但 ReaLM 还能将背景家庭自动化设备考虑在内，从而实现更准确的参考识别。这可能是因为 ReaLM 是根据特定领域的数据进行训练的，从而避免了此类问题。

摘要

本文提出了一种使用大规模语言模型进行参考解析的方法，称为 "ReALM"。这是通过将候选实体编码为自然语言文本来实现的。特别是，它展示了如何使用一种新的文本表示法将屏幕上的实体传递给大规模语言模型，这种表示法既能有效概括用户屏幕上的实体，又能保留它们的相对空间位置。尽管只有文本领域的屏幕引用，ReALM 的性能几乎与当前最先进的大规模语言模型 GPT-4 不相上下。在特定领域的用户语音方面，ReaLM 的表现也优于 GPT-4，因此 ReaLM 是实用参考解析系统的理想选择，它可以在不影响性能的情况下存在于设备上。

本文提出的方法有效地编码了实体在屏幕上的位置，但我们发现，解决依赖于微妙位置理解的复杂用户查询所需的信息却丢失了。因此，探索更复杂的方法（如将屏幕划分为网格并将这些相对空间位置编码为文本）可能具有挑战性，但也是一个前景广阔的未来研究领域。