赶上最新的AI论文

现在已有基准可用于评估人工智能代理在捕捉用户隐含意图方面的能力!

现在已有基准可用于评估人工智能代理在捕捉用户隐含意图方面的能力!

聊天室GPT

三个要点

✔️ 提出 IN3(Intention-in-Interaction,交互中的意图),这是一个新的基准,用于评估代理对用户隐含意图的理解程度
✔️ 将 XAgent 框架整合到现有的 Mistral-Interact 模型中
以设计特定于交互的代理。以设计特定于交互的代理
✔️ 综合实验证实,它能在 96% 以上的时间内理解和总结用户意图

Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
written by Cheng QianBingxiang HeZhong ZhuangJia DengYujia QinXin CongZhong ZhangJie ZhouYankai LinZhiyuan LiuMaosong Sun
(Submitted on 14 Feb 2024 (v1), last revised 15 Feb 2024 (this version, v2))
Comments: 
Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI); Human-Computer Interaction(cs.HC)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来,OpenAI GPT、LLaMA和 Mistral 等大型语言模型(LLM)在生成高质量文本和代码方面取得了重大进展

这些模型的特点是允许语言模型与外界互动,并作为人工智能代理接收反馈,以协助用户完成任务目前已开发出各种开源框架,如BabyAGI、AutoGen和 CAMEL目前已开发出各种开源框架,如 BabyAGI、AutoGen 和 CAMEL。

另一方面,这些框架也存在以下问题

  1. 用户向代理系统发出的初始指令含糊不清、言简意赅,因此无法捕捉到用户的意图
  2. 尽管多个用户有不同的意图,需要明确的查询和启发,但 LLM 却没有考虑到这些用户交互作用

这些问题往往会导致在执行代理任务时出现"假成功",即任务看似已经完成,但却与用户的真实意图大相径庭。

然而,现有的代理基准通常假定在特定任务中取得成功,并没有考虑到理解用户意图的能力,而这正是评估的一个重要方面。

在此背景下,本文介绍了一种新的基准--IN3(交互中的意图),其目的是通过明确的任务模糊性判断和用户询问来评估代理对用户隐含意图的理解程度本文介绍了

互动意图基准

以往的代理基准假定给定任务是明确的,旨在评估代理执行任务的能力。

然而,在实际任务中,用户给出的指示往往是模糊的,例如,在"找出我所在城市最好的瑜伽课 "任务中,就会出现 "我所在的城市 "位于何处以及 "最好 "的标准是什么的问题。标准?

要解决这些问题,代理需要主动查询缺失的细节,并了解用户的隐含意图。

本文提出了IN3(交互意图),作为评估 LLM 能否清楚理解用户意图的基准。

IN3 的概览如下图所示。

如图所示,在 IN3 中,模型使用人类绘制的 "种子任务"(Seed Tasks)作为步骤 1,迭代生成新任务,以扩充数据集。

同时,从步骤 2 的数据集中抽取一个新的示范示例,进行下一轮生成。

然后,在步骤 3 中,借助 GPT-4,对每个任务的模糊性、缺失细节、每个细节的重要性和潜在选项进行人工标注。

按照这些步骤,IN3 提供了数百个类别的各种代理任务,如烹饪、艺术、编程等,并允许对信息的重要性、任务是否明确或(如果模糊)缺失进行三级注释

以前面的问题为例,IN3 提供了用户居住城市的详细信息,并标注了 BEST 标准,同时要求模型提供可能的答案选项和用户的真实意图选项。

方法

结合 IN3 提议,本文提出了一种在代理设计上游纳入模型的新方法,以增强用户与代理之间的交互。

具体来说,一个名为 Mistral-Intract的交互特定模型被纳入了XAgent 框架(一个用于解决复杂任务的自主代理系统),从而创建了一个能够理解用户特定意图的强大模型。

衡量标准

本文还提出了一种新的评估指标,用于将用户与代理互动中人类的主观意图转化为客观价值,具体内容如下。

  1. 模糊判断准确度: 计算模型对任务模糊性 的判断与正确答案一致的比例
  2. 缺失细节恢复率: 计算对话过程中模型查询到的不同重要性问题的细节百分比。
  3. 总结意图覆盖率: 计算模型最终明确总结了用户提供的意图的百分比。

本文采用上述方法和评价指标在 IN3 上进行了实验。

实验

本文进行的实验将上述集成了 Mistral-Interact 和 XAgent 框架的模型与现有模型 LLaMA-2-7B、Mistral-7B 和 GPT-4 进行了比较。

实验结果如下表所示。

该表证实,在所有开源模型,Mistral-Interact 的性能最佳

此外,表中的 "摘要意图覆盖率 "值证实,该系统能够充分概括 96% 以上的用户意图,表明它特别擅长根据用户意图提供全面的摘要。

摘要

结果如何?在这篇文章中,我们讨论了一篇提出 IN3(交互意图)的论文,这是一个新的基准,旨在通过明确的任务模糊性判断和用户询问来评估代理对用户隐含意图的理解程度。说明

通过本文的实验,我们可以证明 IN3 和拟议模型的有效性,尤其是拟议模型能够非常充分地捕捉用户的意图。

另一方面,也有一些技术上的改进,例如允许模型模拟用户的特定语气(如生气、平静)和反应风格(如简短、啰嗦),模型还可以访问用户过去的对话历史,以更详细地反映个人偏好。技术上也有一些改进。

有了这些改进,未来的发展非常令人兴奋,因为 LLM 可能会超越支持用户的角色,在未来成为用户本身的替代品。

本文所介绍的基准和实验结果的详情可在本文中找到,有兴趣者可参考。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们