应用 LLM 开发高性能网络助手的关键要素是什么？

大型语言模型 29/02/2024

三个要点
✔️ 大规模语言模型在网络用户界面上的潜在应用和挑战：使用大规模语言模型的网络助手有可能提高人类从网络上检索信息的效率，但在真实网站上完成任务的准确率仍然很低，约为 15%。
✔️ 提高性能的关键因素：从网页中有效识别和检索重要信息的能力、特定的自然语言命令、HTML 的正确处理以及大规模语言模型所包含的角色都有助于提高性能。
✔️ 实验结果的启示：用 Claude2 进行的实验表明，样本选择、查询的具体性、HTML 处理和角色对网络助手的性能有重大影响，适当协调这些因素可提高任务完成的准确性。

"What's important here?": Opportunities and Challenges of Using LLMs in Retrieving Information from Web Interfaces
written by Faria Huq, Jeffrey P. Bigham, Nikolas Martelaro
(Submitted on 11 Dec 2023)
Comments: Accepted to NeurIPS 2023 R0-FoMo Workshop
Subjects: Computation and Language (cs.CL); Information Retrieval (cs.IR)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

近年来，大规模语言模型在用户界面任务的许多领域都备受关注。能够理解自然语言命令并从网络用户界面检索相关信息的网络助手有望显著提高人类的工作效率。大规模语言模型（LLMs）的最新进展和 HTML 解释的潜力促使主流研究聚焦于能够自主导航的大规模语言模型驱动的网络助手。

然而，迄今为止，网络助理在完成真实网站任务方面的准确率仅为 15%，还没有达到可以日常使用的阶段。

要成功完成用户指定的任务，需要浏览一系列网页，而这需要正确执行一系列基本操作，如在每个步骤中识别和检索每个页面的用户界面元素。

本文旨在探索大规模语言模型驱动的网络助手在检索网页中重要相关元素方面的性能，以提高其性能。换言之，本文旨在先提高基本能力，再提高应用能力。

本文对以下输入提示的四个要素进行了研究，表明大规模语言模型的性能取决于这些要素。

少量提示的样本选择：少量样本的选择如何影响成绩
自然语言命令的具体程度：输入命令的具体程度如何影响性能
HTML 截断策略：HTML 编码策略如何影响性能
法律硕士所扮演的特定角色（人物角色）：法律硕士所模仿的角色的选择如何影响学习成绩

本文还讨论了大规模语言模型所面临的一些局限性（如不存在网络元素的错觉和无法遵循输入指令），以及解决这些局限性的未来方向和可能的解决方案。它强调了使用大规模语言模型时需要考虑的关键因素，并为针对特定类型的任务和情况选择最佳策略提供了有价值的见解。

试验

本文使用的是 Anthropic 的 Claude2 模型，它是迄今为止所有大型语言模型中上下文长度最大的，达到 100k 个词组。考虑到网页上可能存在成千上万的元素，大语境长度非常适合网页用户界面分析。

每个样本被定义为一组"{{w, q}, e}"。其中，w、q 和 e 分别代表当前视口的 HTML、用户查询和参考用户界面元素，而 Ψ 则被定义为检索最重要的用户界面元素，如下所示。目的是评估Ψ 的性能。

这种实验设置为测量大规模语言模型在网络用户界面任务中的能力提供了一种精确的方法：通过包含 HTML 内容、用户查询和目标用户界面元素的具体样本，评估模型识别和检索重要信息的效率。实验结果可用于评估模型识别和检索重要信息的效率。

实验使用了 Mind2Web 数据集，因为该数据集包含从 137 个网站收集的 2,000 个开放式真实任务。该数据集包含三个不同的测试集：(1) 跨任务：来自训练过程中尚未识别的任务的样本；(2) 跨网站：来自未识别网站的样本；(3) 跨领域：来自未识别领域的样本。这三个测试集对于了解大规模语言模型的通用性特别有用。

此外，HTML 布局通常比较复杂，会嵌套多个元素来指向相同的信息。例如，在 Walmart.com 的示例中，搜索按钮有一个子元素（搜索图标），如下图所示。预测搜索按钮或图标都会产生相同的结果。为了解决这个问题，根据预测的用户界面元素，展开下面的叶节点，并将它们与相同的参考标签进行比较。

在本实验中，通过每个元素的 Recall 和 Acuraccy 来评估性能。

下表显示了每项测试（跨任务、跨网站和跨领域）的性能因从训练数据中选取的样本而异。

在交叉任务中，从训练数据中选取的样本明显提高了性能。这可能是因为训练数据包含了与测试数据类似的任务，从而使系统能更好地学习。但是，在跨网站和跨域中，所选样本的作用不大。这可能是因为训练数据和测试数据中的网站和域不同，系统无法应对未知的环境。

在本实验中，单次提示（只使用一个样本）比两次提示（使用两个样本）在选择样本时表现更好。这可能是由于随着输入长度的增加，性能会下降。不过，当提示样本固定（始终使用相同样本）时，使用双枪提示的性能始终更好。这可能表明，在网络用户界面中，不仅需要提供有意义的样本，还需要考虑样本的长度。

Claude2 的性能在很大程度上取决于所使用的训练数据样本，因此必须选择正确的样本和提示方法，以确保在任何测试环境中都能始终保持高性能。

下表显示了 Claude2 根据用户查询的具体程度得出的性能。

由于现有用户界面数据集中对用户查询的特殊性的任务描述非常详细，与实际情况相差甚远，因此本文从三个层面对任务描述进行了重新定义和修改。

详细说明：测试集的原始任务描述。
简化：简化的任务描述，仅包含基本细节
摘要：描述一项高级任务，模拟真实世界中的用户查询，不包含任何细节。

这些不同的描述类型被用于使用 GPT-4 创建简化和抽象的描述。该报告指出，这是大规模语言模型首次尝试研究具体性对用户界面任务的影响。

因此，我们观察到，随着用户查询的具体程度变得越来越抽象，大规模语言模型的性能也会逐渐下降。然而，当提示样本固定时，所有具体程度级别的性能都相对一致。

原始 HTML 每页还可能包含成千上万个元素，这会使 LLM 模型难以处理如此大量的信息。因此，我们正在考虑在将 HTML 输入大规模语言模型之前，过滤掉信息量不大的元素并对其进行截断。下表显示了不同程度的 HTML 截断结果。与不截断相比，截断大大提高了性能。

此外，用户感兴趣的用户界面元素可能因人而异。例如，用户界面/用户体验设计师可能对应用程序的交互流程感兴趣。而普通用户可能只想尽快找到信息。换句话说，性能可能因用户角色而异。

因此，本文研究了三种不同的角色（1）普通用户角色（2）网络助理角色（3）用户界面设计师角色）。每个角色的提示如下图所示。

下表显示了 Claude2 在不同输入提示下的表现。网络助手的表现明显优于其他角色（跨任务中的双枪提示除外）。

摘要

本文探讨了大规模语言模型在特定任务下从网页中发现重要信息的能力。它还揭示了用户提出的具体问题与模型性能的关系。

未来的研究可以从这些发现中吸取经验教训，改进模型，使其工作时反应更加灵敏。换句话说，该模型可以更好地确定何时进行干预并要求用户提供更多信息。一个特别有趣的方向是让模型能够更准确地理解用户的意图并做出反应，即使提示模棱两可。这可以提高模型解读细微差别并做出适当反应的能力。此外，模型还可以从用户的个人信息和其他上下文（如位置、时间等）中学习，但今后还需要考虑在处理这类个人信息时如何解决安全问题。

这项研究目前仅限于 Anthropic 的 Claude2 模型，但将来会扩展到其他大型语言模型，如 GPT-4、Llama V2、Vicuna 和 PaLM 2。将这项研究应用于其他模型的一个主要挑战是如何在有限的空间内容纳大量的网页信息（HTML 上下文）。未来的研究还应探讨如何在准确反映网页结构（DOM）的同时，有效地将这些信息纳入模型。