ChatEval 是一个允许人工智能代理相互讨论的评估框架,现已推出!
三个要点
✔️ 提出了多代理框架 ChatEval,该框架允许多个代理进行自主讨论和评估
✔️ 辩论代理之间的小组讨论可实现类似于人类注释者的评估
✔️ 评估过程中的不同角色证明需要具有以下能力的注释者
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
written by Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, Zhiyuan Liu
(Submitted on 14 Aug 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
评估由语言模型生成并由人类撰写的文本的质量是一个重要问题,虽然传统的方法是由人类对文本进行注释,但这种方法在时间和成本方面被认为是不切实际的。
在这一历史进程中,人们提出了基于 n-grams 的自动评价指标,如Rouge、BLEU和METEOR,但有人认为这些方法与人类判断的相关性较弱,尤其是在涉及开放式生成或需要特定领域专业知识的任务中。以下是本研究结果的摘要。
另一方面,自然语言处理领域的最新进展导致了十亿参数大规模语言模型(LLMs)的出现,如 GPT-3,并提出了一种LLM-as-a-判断方法。判断方法。
这些方法只是在单个代理的基础上设计的,只对一个生成代理进行评估,但在人类评估过程中,依赖单一观点往往会导致评估的偏差和不稳定性,人们担心在代理的情况下也会出现这种偏差。就代理而言,出现这种偏差的可能性也是一个令人担忧的问题。
在此背景下,本文提出了一个多代理框架 ChatEval,在该框架中,具有特定专业知识的多个代理可自主进行讨论和评估,本文还描述了一篇论文,证明在评估过程中需要具有不同角色的注释者。
聊天评估
如下图所示,本文提出的ChatEval是一个基于多智能体的框架,与基于单智能体的方法相比,它可以进行更类似于人类注释者的评估。
辩论代理
辩论代理是这一框架中最重要的组成部分之一,指的是具有专家知识的代理,他们受命根据给定的提示生成答案。
建立辩论代理后,就会发起小组讨论,每个代理都会自主接收其他代理的回复,并依次发送自己的回复。
通过这种方式,多个代理可以作为裁判参与评估过程,裁判之间可以进行讨论,最终得出更接近人类注释者的评估结果。
传播战略
如何维护代理之间的聊天记录是 ChatEval 的另一个重要问题。
如下图所示,该框架采用了三种不同的交流策略:"一对一"(One-by-One)、"同时交谈"(Simultaneous-Talk)和"带有总结器的同时交谈"(Simultaneous-Talk-with-Summarizer)。(箭头的方向代表信息流,这意味着此人的发言会添加到箭头指向的人的聊天记录中)。
在 "一对一 "中,在每一轮讨论中,辩论代理都会根据自己的专业知识,按照预先确定的顺序生成回复;当辩论代理需要回复时,其他代理的发言会直接添加到代理的聊天记录中。
与 "一对一 "不同,在 "同步对话 "中,讨论是异步和无序的。在这里,辩手代理会在讨论过程中被提示异步生成答案,以消除发言顺序的影响。
带总结器的同时聊天与前述的同时聊天不同,它增加了一个总结器代理作为总结器,在讨论结束时,该代理会总结迄今为止的信息,并将总结添加到辩论代理的聊天记录中。摘要会添加到辩论代理的聊天记录中。
实验
为了证明所提议的方法 ChatEval 的有效性,我们进行了对比实验,增加了人类注释者的评价和现有的方法 FairEval。
在 ChatEval 中使用了两种情况:只有一个代理的单代理和有多个辩论代理的多代理。
它采用与现有方法相同的评估方法,对人类注释者和 LLM 生成的注释结果进行评估。使用的评价指标是准确度(Acc.)和卡帕相关系数(Kap.),前者衡量在所有实例中正确分类实例的比例,后者衡量模型与人类注释者结果之间的一致性。
对比实验的结果如下。
如表中粗线所示,拟议方法 ChatEval 在两种评估方法中表现最佳,这表明了拟议方法的有效性。
此外,论文还包括定性分析,首先向两位助理提出了一个开放式问题:"应对压力最有效的方法是什么?(应对压力最有效的方法是什么?)
助理 1 的答复如下。
助理 2 的答复如下。
爱丽丝、鲍勃和卡罗尔三位辩论代理对这一答复的评价过程如下图所示。
在收到两位助理的答案后,爱丽丝首先指出助理 2 的答案包含更多细节,并认为她的答案更好。
鲍勃则同意爱丽丝的评价,并认为助理 1 的答案也提出了简洁而发人深省的问题,而卡罗尔则反馈说两个答案都同样有价值。
在随后的讨论中,鲍勃表明助理 1 的回答很坦率,而助理 2 的回答则很详细,讨论结束后,他输出了与人工标注结果相同的评估结果。
上述情况表明,ChatEval 不仅仅是一个评级工具,它还通过模拟人与人之间的讨论交流,捕捉到了从单一角度看往往会忽略的细微差别。
摘要
结果如何?在这篇文章中,我们介绍了一篇论文,该论文提出了一个多代理框架 ChatEval,在这个框架中,具有特定专长的多个代理可以自主进行讨论和评估,并证明了在评估过程中需要扮演不同角色的注释者。
论文具有很强的启发性,证明了在评估过程中生成和讨论具有不同角色设置的代理有助于进行更接近人类判断的综合评估,其结果对未来的评估方法非常有用。
本文中描述的 ChatEval 评估过程和对比实验的详情可在本文中找到,如有兴趣,请参阅本文。
与本文相关的类别