赶上最新的AI论文

什么是AI-SCHOLAR？

自动执行电子表格任务的 LLM 代理 SheetAgent 现已推出！

自动执行电子表格任务的 LLM 代理 SheetAgent 现已推出！

聊天室GPT 28/05/2024

三个要点
✔️ 构建了用于开发和评估电子表格操作的 LLM 代理的新基准 SheetRM
✔️ 提出了用于高级推理和精确电子表格操作的 LLM 代理 SheetAgent
✔️ 比较实验表明，SheetAgent 的性能明显优于现有方法。明显优于现有方法。

SheetAgent: A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models
written by Yibin Chen, Yifu Yuan, Zeyu Zhang, Yan Zheng, Jinyi Liu, Fei Ni, Jianye Hao
(Submitted on 6 Mar 2024 )
Comments: Published on arxiv.
Subjects: Artificial Intelligence(cs.AI); Machine Learning(cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

电子表格格式的数据在科学、金融和营销领域发挥着重要作用，主要由电子表格系统处理。

虽然这些系统对数值计算、数据分析和可视化等任务非常有用，但这些管理任务往往需要大量的时间和经验。

为解决这些问题，近年来已开始尝试使用大型语言模型（LLM）实现电子表格自动化。

但是，它不具备执行复杂、现实任务的能力，例如多步推理或要求不明确的操作，只能处理涉及简单计算和一步推理的任务。

在此背景下，为了缩小与电子表格中的实际挑战之间的差距，本文介绍了用于开发和评估电子表格操作的 LLM 代理的新基准 SheetRM，以及由三个模块组成、能够进行高级推理和精确电子表格操作的 SheetAgent。本文介绍了所提出的 SheetAgent，一种 LLM代理。

数据表 RM 基准

多类别

本文构建了一个名为 SheetRM的新基准，目的是缩小模拟任务与真实世界任务之间的差距，将现有基准中未包含的具有更复杂的多阶段推理和模糊要求的任务纳入其中。

SheetRM 的概览如下图所示。

为了包含更真实、更复杂的任务，SheetRM 包含了需要多操作类别和多阶段推理的真实任务，如图（a）所示。

具体来说，它包括五种主要类型和 36 种子类型的操作问题 + 四种相应的推理任务，每种任务既测试电子表格的操作能力，也测试任务中的推理能力。

任务模式

SheetRM 中的每项任务都由三部分组成

电子表格资产： 由于每个任务都由多个电子表格组成，电子表格的内容由一句自然语言翻译，目的是评估 LLM 的内部知识。
任务指令： 强制用户执行以自然语言表达的高级任务。完成任务需要对目标电子表格进行一系列操作。
核对表： 如图（b）所示，每项任务都配有一份旨在评估其完成情况的核对表，核对表中的每个项目都与详细的操作评估相对应，并配有量身定制的标准。

SheetAgent 框架

为了量化 SheetRM 带来的挑战，本文提出了基于 LLM 的代理框架SheetAgent。

如下图所示，SheetAgent 由Planner、Informer 和 Retriever三个主要组件组成。

我们将逐一进行解释。

规划师

下图显示了 SheetAgent 中的计划员提示模板。

Planner 用于处理电子表格，特别是使用基于 ReAct 的方法来推理和生成 Python 代码，以处理目标电子表格。

信息员

下图显示了 SheetAgent 中的 Informer 提示模板。

SheetAgent 中的 Informer负责生成特定任务的 SQL 以执行查询，从而使 Planner 能够更准确、更高效地识别目标电子表格，并有效应对推理难题。以下是一些示例。

寻回犬

SheetAgent 中的 Retriever负责在任务规划期间为规划师提供建议，并通过从代码库中获取相关代码来加强纠错。

为了提高搜索效率，我们采用了开源矢量数据库Milvus（Wang 等人，2021 年）作为代码库。

实验

为了验证 SheetAgent 的性能，本文使用现有基准 SheetCopilot Benchmark (SCB) 和上述 SheetRM 进行了实验。

作为 SheetAgent 的比较模型，还使用了基于 LLM 的代理框架 SheetCopilot 和生成和执行 VBA 代码的方法 VBA。

此外，试验还根据现有的基准，即 SCB，采用了以下三个评价指标

Exec@1： 计算在任务执行过程中未引发异常的任务百分比。
Pass@1： 计算已完成任务的百分比
SubPass@1： 计算每项任务完成子任务的百分比。

SCB 的实验结果如下表所示。

从表中可以看出，SheetAgentはSheetCopilotよりも16.8%も高いPass@1と6.8%も高いExec@1 在性能方面优于 SheetCopilot。

这表明 SheetAgent 具有更高级的推理能力，能够处理复杂的电子表格。

此外，下图显示了 SheetAgent 和 SheetCopilot 在推理任务中的比较。

如图所示，我们发现 SheetCopilot 无法生成符合指令要求的解决方案，而SheetAgenth 则能够根据所给信息正确识别指令的意图，并生成优秀的解决方案。

摘要

结果如何？在这篇文章中，我们讨论了 SheetRM，它是开发和评估用于操作电子表格的 LLM 代理的新基准，目的是缩小电子表格真实世界挑战与 LLM 代理之间的差距。本文介绍了所提出的 SheetAgent，它是一个由三个模块组成的 LLM 代理。

本文进行的对比实验证实，与现有方法相比，所提出的 SheetAgent 有能力处理更复杂的电子表格和执行更复杂的任务。

虽然现阶段该框架尚未在 github 上公开，但我们计划将其开源，这样任何人都可以使用它，这将把许多人从繁琐的电子表格工作中解放出来，我们期待着未来的发展。

本文所介绍的框架和实验结果的详情可参见本文，有兴趣者可参阅�

与本文相关的类别

田中侑李

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。