
通过允许不同的代理机构相互辩论,已经出现了一个能带来超越 GPT-4 性能的框架!
三个要点
✔️ 提出了一个多代理框架 RECONCILE,该框架设计了不同代理之间的辩论过程
✔️ 通过让表现较差的代理相互辩论,取得了与 GPT-4 相同或更好的表现
✔️ 从不同代理那里获得了外部反馈意见通过以下方式成功地进一步提高了 GPT-4 的性能
ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs
written by Justin Chih-Yao Chen, Swarnadeep Saha, Mohit Bansal
(Submitted on 22 Sep 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,人们一直在努力模仿人类的各种认知过程,如反思自己的预测和从反馈中学习,目的是提高大规模语言模型(LLM)的推断能力。
除了这些努力之外,人们还在广泛研究如何将 "思维社会"(即当许多代理聚集在一起并相互影响时就会产生思维)纳入多代理系统,以促进更多样化的思维。
这些发展导致了多代理辩论框架的发展(Liang 等人,2023 年),即多个代理进行辩论并得出最终答案,因为多个代理之间的沟通在复杂决策中发挥着重要作用。这些方法引起了广泛关注。
另一方面,尽管通过辩论过程,此类框架中的推理更加多样化,但多个代理通常被限制在同一基础模型 ChatGPT 的不同实例中,从而导致特定模型的偏差和来自其他模型的反馈。缺乏反馈。
为了解决这些问题,本文提出了一个多代理框架 RECONCILE,该框架设计了不同代理之间的讨论过程,从不同语言模型生成的代理的各种见解和外部反馈中学习、本文介绍了该框架如何解决复杂的推理问题。
RECONCILE:小组讨论和说服框架
众所周知,在面对复杂的推理任务时,人类会利用集体智慧的力量,也就是所谓的 "心灵社会",比如集体头脑风暴。
受此启发,本文提出了一个多代理框架RECONCILE,该框架允许由多个 LLM 生成的代理相互辩论,从而提高了推理能力。
下图说明了 RECONCILE 与现有方法的区别。
现有的大多数方法(Self-Refine、Multi-Agent Debate、MAD+Judge)都依赖于 ChatGPT 等单一模型,而 RECONCILE 则结合了 ChatGPT、Bard 和 Claude2 等多种模型。其特点如下
此外,该方法还采用了多种不同的方式来提高讨论的有效性,例如说服其他代理改进其答案,以及将所有代理的置信度估计(一种为未知概率参数创建一组近似值的方法)纳入其中。采用以下创新方法:
下图显示了使用 ChatGPT、Bard 和 Claude2 进行 RECONCILE 的概况。
如图所示,RECONCILE 通过以下三个阶段运行
第 1 阶段:生成初始响应
第 1 阶段是生成初始回复,指示代理按照下图所示的初始提示逐步推理给定问题。
此外,还要求代理计算所生成答案的置信度(置信度),置信度在 0 和 1 之间。
第 2 阶段:多轮讨论
在第 2 阶段的多轮讨论中,代理人之间在收到下图所示的讨论提示后开始多轮讨论。
在每一轮辩论中,所有代理人都会根据上一轮其他代理人的答案修改自己的答案。
当达到预先设定的停止标准(如所有代理达成一致或达到最大回合限制)时,辩论即告结束。
第 3 阶段:生成最终答案
在第三阶段 "最终答案生成 "中,辩论过程结束后,由每个代理投票生成最终答案。
现有研究中的多智能体框架依赖于单一模型(如 ChatGPT),限制了不同模型的互补意见和集合学习的优势,而本方法结合了多个模型,提高了鲁棒性和整体准确性。本方法的优势如下。
此外,在多代理系统中新加入的置信度估算功能使每个代理都能更容易地改进自己的论点,并输出更有说服力的答案。
下图概述了这些现有研究以及 RECONCILE 的主要区别。
如图所示,由于上述各种创新,RECONCILE 包含了现有研究中尚未实施的所有要素。
实验
为了证明 RECONCILE 的有效性,本文对 ChatGPT、Bard 和 Claude2 LLM 进行了实验。(所有实现都使用了 gpt-3.5-turbo-0613,包括 ChatGPT)。
数据集使用 StrategyQA 和 ECQA 评估推理能力,使用 GSM8K 和 AQuA 评估数学能力,并记录了所有任务的准确性和标准偏差。
此外,在进行实验时还采用了以下三种分类方法
- Vanilla 单一代理:包括 ChatGPT、Bard 和 Claude2 的标准提示,要求模型逐步回答问题(GPT-4 也用于比较)。
- 高级单一代理:自我定义(SR),利用模型本身迭代生成反馈,并利用反馈改进输出;自我一致性(SC),对多个推论进行采样,生成最一致的答案。在 ChatGPT 上,自定义(SR)和自一致性(SC)是两种不同的方法(SR+SC)和一种将两者结合的方法(SR+SC)。
- 单模型多代理:实现最近提出的两种方法,即在多个 ChatGPT 实例之间进行多代理辩论(Debate),以及增加一名法官来监控辩论过程(Judge)。
实验结果如下表所示。
这一结果最显著的一点是,在所有四个数据集中,使用 ChatGPT、Bard 和 Claude2 实现的 RECONCILE 都优于所有基于这些代理的单代理和多代理基线点。
此外,在需要推理能力的 StrategyQA 和 ECQA 等数据集上,该方法的性能优于 GPT-4(上排)。
结果表明,RECONCILE 通过使用三个性能相对较低的代理(ChatGPT、Bard 和 Claude2),可以达到或超过 GPT-4 的水平,从而证明了这一框架的有效性。
然后,本文研究了最强大的 LLM(GPT-4)与表现相对较差的代理进行多轮辩论的效果。
具体来说,用 GPT-4 代替了之前实验中使用的 ChatGPT,并记录了使用 GPT-4、Bard 和 Claude2 实施 RECONCILE 时,每个代理在每轮辩论结束时获得的准确率。(使用的数据集为 StrategyQA)。
实验结果如下表所示。
如表所示,随着回合数的增加,每个代理的精确度都有所提高,这证明所有模型都能从辩论中相互受益。
特别是,GPT-4 的准确率提高了 10%,这表明功能强大的代理有可能从性能相对较差的代理那里获得有用的外部反馈,从而提高自身的性能。
摘要
它是如何做到的?在这篇文章中,我们提出了 RECONCILE,这是一个多代理框架,设计用于不同代理之间的讨论过程,从不同语言模型生成的代理的各种见解和外部反馈中学习,以解决复杂的推理问题。本文介绍了如何使系统解决复杂的推理问题。
实验结果表明,RECONCILE 可以通过组合性能相对较低的代理,获得超过 GPT-4 的性能,而且来自各种代理的外部反馈可以进一步提高 GPT-4 的性能。
这些研究结果表明,在通过讨论解决复杂任务的多代理系统中,利用各种代理是有潜力的,并对未来研究具有重要意义。
另一方面,在性能考量方面仍存在一些问题,比如本框架中使用的所有 LLM 模型都是基于 API 的,这意味着训练数据和参数标度都是黑盒子。
对此,作者表示,随着能力更强的开源模型的出现,这些问题将在未来得到缓解,因此我们可以期待进一步的发展。
本文所介绍的框架和实验结果的详情可参见本文,有兴趣者可参阅。
与本文相关的类别