赶上最新的AI论文

现在已经有了一个平台,用于评估法律硕士的合作行为和管理共享资源的能力!

现在已经有了一个平台,用于评估法律硕士的合作行为和管理共享资源的能力!

模拟平台

三个要点
✔️ 设计了 GOVSIM(公地治理模拟),这是一个模拟平台,旨在评估当地语言学习者的合作行为及其管理共享资源的能力
✔️ 利用 GOVSIM 对 15 个不同的当地语言学习者进行了大规模比较
进行的实验
✔️ 只有两类实验取得了可持续的结果

Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents
written by Giorgio PiattiZhijing JinMax Kleiman-WeinerBernhard ScholkopfMrinmaya SachanRada Mihalcea
Submitted on 25 Apr 2024
Comments: 
Published on arxiv.
Subjects: Computation and Language (cs.CL)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

大型语言模型(LLM)的最新进展不仅可以与人类的能力相媲美,在某些情况下甚至可以在各种任务中超越人类的能力。

特别是最近,这些模型正被集成到复杂的代理系统中,而随着 LLM 在这些系统中变得越来越重要,就要求 LLM 能够安全可靠地运行,特别是在协作环境中。

合作行为中的 LLM 研究仍处于起步阶段,大多数现有研究都集中在棋盘游戏等受限情景中,也有一些关于单个代理 LLM 的研究,但未能解决以下问题

  • 对法律硕士如何理解和维护合作规范了解不足
  • 目前还不清楚 LLM 如何处理模拟中的交互作用并最大限度地提高回报。
  • 将 LLM 作为心理学和经济学理论模拟平台的潜力尚未得到充分发掘

为了解决这些问题,本文介绍了GOVSIM(Governance of the Commons Simulation)的设计,这是一个用于评估 LLMs 合作行为及其管理共享资源能力的模拟平台,并通过使用 15 种 LLMs 进行大规模对比实验,研究了 LLM 模型在合作策略中的表现。本文通过使用 15 种不同的LLM 进行大规模对比实验研究了 LLM 模型在合作策略中的表现

GOVSIM(Goveranance of the Commons Simulation)

本文设计的仿真平台GOVSIM(Governance of the Commons Simulation)两部分组成:管理仿真动态的环境(Environment)和在特定环境中与仿真互动的代理(Agent)。它由两部分组成:管理模拟动态的环境和在给定环境中与模拟互动的代理

环境

在 GOVSIM 中设计的环境有一个多代理和部分可观测的框架,每个框架由不同阶段的多轮组成。

下图显示了每一轮的概况。

这里包括以下阶段。

  1. 战略: 代理人反思过去,规划未来的行动和战略
  2. 收获: 代理收集资源并确定收获资源的数量
  3. 讨论: 代理商聚集在市政厅,参加讨论论坛,并与所有参与者进行小组讨论

在讨论阶段,代理人聚集在一个虚拟环境中进行讨论,只有被称为主持人的代理人才有能力披露每个代理人在上一个周期的收获量。

启用这一功能可以提高参与者之间的透明度和责任感,而不启用这一功能则可以对代理人之间的信任和欺骗动态进行调查。

代理。

虽然 GOVSIM 中的代理采用了现有研究中描述的架构,但其设计更适合目标导向型任务,这与原始框架侧重于日常活动中的人类模拟形成了鲜明对比。

此外,最初的框架将代理之间的对话限制为一对一,而 GOVSIM 则扩展了对话模块,允许主持人管理对话。

使得讨论更加生动、互动性更强,因为目标代理可以回答直接的问题,而任何参与者都可以提出较为笼统的陈述。

在前文评述的基础上,我们举例说明代理共享鱼群的模拟提示如下。

实验

为了证明 GOVSIM 的有效性,本文使用以下 15 个 LLM 模型进行了大规模对比实验。

  • 闭合重量型号: GPT-3.5、GPT-4、Mistral MediumMistral Large、Claude-3 Haiku、Claude-3 Sonnet、Claude-3Opus。
  • 公开重量级型号: Llama-2 7BLlama-213B、Llama-270B、Mistral 7BMistral 8x7B、Qwen 72BDBRXCommand R+

该实验研究了LLM 物剂维持湖中鱼类数量的能力,以及在资源利用和鱼类数量维持之间达到平衡的能力

模拟结果如下图所示。

图中纵轴表示维持的鱼群数量,横轴表示时间。结果证实,GPT-4 和 Claude-3 Opus(绿线)成功地长期维持了共享鱼群,而其他模型(红线)则未能维持鱼群,并在 6 月份耗尽了鱼群。图 2.1.

这些结果的详情见下表。

由此可见,性能较低的模型难以掌握模拟的复杂性,并更快地消耗共享资源。

摘要

结果如何?在这篇文章中,我们设计了GOVSIM(Governance of the Commons Simulation)--一个用于评估LLMs的协作行为和管理共享资源能力的模拟平台,并用15种不同的LLM模型进行了大规模的对比实验,以研究LLMs在策略方面的表现。本文介绍了对 LLM 在战略中的表现进行的调查。

本文进行的对比实验显示,在所使用的 15 个 LLM 中,只有两个(GPT-4 和 Claude-3 Opus)能够实现可持续的结果,这表明LLM 模型在管理共享资源的能力方面存在很大差距。

另一方面,本实验中也提到了简化资源共享场景的问题,而现实世界中的共享资源管理涉及更复杂的动态因素,如资源类型的多样性和更广泛的利益相关者。

本文作者在回应中指出,"未来,将模拟扩展到这种复杂性,将能够更详细地阐明 LLM 模型的合作行为",因此未来的进展非常值得期待。

本文所介绍的模拟平台和实验结果的详情可参见本文,感兴趣者可参考�

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们