赶上最新的AI论文

OpenToM 是评估法律硕士是否具备

OpenToM 是评估法律硕士是否具备 "思维理论 "的基准,现已推出!

数据集。

三个要点
✔️ 提出了用于评估生成代理推理心理状态能力的新基准--OpenToM
✔️ 制定任务可以提出更详细的问题
✔️ 大规模验证验证了 LLM 是否具有 "心智理论"

OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models
written by Hainiu XuRuncong ZhaoLixing ZhuJinhua DuYulan He
(Submitted on 8 Feb 2024 (v1), last revised 14 Feb 2024 (this version, v2))
Comments: 
Published on arxiv.
Subjects: Artificial Intelligence(cs.AI); Computation and Language (cs.CL)

code: 
 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来,许多实验都假设大型语言模型(LLMs)(如 ChatGPT)可能拥有ToM(心智理论,又称心智论,即认识到他人对世界的看法不同,并能把握他们之间的差异)。在以下假设下进行了大量实验

然而,现有的评估 N-ToM(神经心智理论)的基准,即此类 LLM 执行 ToM 的能力、

  • 缺乏对人物性格的刻画
  • 生成代理的行动没有动机(例如,山姆为什么要移动物体?)
  • 缺乏对人物心理状态的提问。

问题是存在多种弊端,例如

在此背景下,本文介绍了建立 OpenToM 的论文,OpenToM 是评估生成代理在物理世界中推理心理状态能力的新基准,并通过大规模验证来验证 LLM 是否具有 "心智理论"

OpenToM 管道

一个典型的 OpenToM 故事由两个角色、物品、若干地点和容器组成,其中一个角色是执行行动推动者,另一个角色见证行动观察者

MOVER 和 OBSERVER 的任务顺序如下图所示。

在这里,艾米是移动者,山姆是观察者,他们正在执行将篮子里的鸭子搬到背包里的任务。

如下图所示,每个 OpenToM 任务之后都有一个关于物体位置的问题 Loc一个需要推理技能和社会常识问题 MultiHop 和一个关于人物态度的问题 Attitude

随后将对这些问题进行更详细的讨论。

地点(Loc)

Loc 问题询问的是人物对物体位置的看法。

在 OpenToM 中还有两种位置问题:LoccoarseLocfine,其中Loccoarse询问对象是否处于初始位置,而Locfine则询问对象的明确位置

多跳 (MHop)

MHop 问题提出了一些需要推理能力和社会常识的问题。

例如,请考虑上图中的问题:"从山姆的角度来看,橡皮鸭的可访问性会发生怎样的变化?请考虑以下问题。

回答这个问题时,山姆需要推断橡皮鸭发生了什么事。(在这里,鸭子从篮子里转移到了背包里)。

此外,当鸭子在艾米的背包里时,山姆需要注意社会规范,即其他人未经允许不得从艾米的背包里拿东西。

如果经过这一过程后,代理人能回答"不太容易获得",那么答案就是正确的。

态度 (Att)

Att 问题询问法律硕士解读人物心理状态的能力。

具体来说,诸如"假设山姆观察到了艾米的行动,那么他对艾米的行动会持什么态度?这个问题是为了推断观察者对行动者的行动的态度,比如 "假设山姆观察到了艾米的行动,他会对艾米的行动持什么态度?

制定任务

本文提出的 OpenToM 与现有基准的一个不同之处在于它所提出的问题涵盖了物理世界(如物体的位置)和心理状态(如人物对特定行为的态度)方面的人物心理状态

在 OpenToM 中,所有问题都被表述为二元或三元分类任务,如果故事为 Ncomp,答案集为 A,角色为 c,问题为 qc,则 OpenToM 任务可表述如下。

在这里,1expl成为一个指标函数,如果明确提供了以人物为中心的叙述,则返回 1,否则返回 0。

实验

本文使用六种具有代表性的模型进行了实验Llama2-7B、Llama2-13B、Llama2-70B、Mixtral-8x7B-Instruct、GPT-3.5-Turbo和 GPT-4-Turbo

鉴于所有 OpenToM 问题都是二元或三元分类任务,且标签并非均匀分布,因此使用 F1 分数来评估模型的性能。

下表列出了根据 F1 分数对 OpenToM 中每个模型的评估结果。

图中显示,总体而言,GPT-4-Turbo 在 Loccoarse、MHop 和 Att 问题上明显优于其他型号

另一方面,值得注意的是,虽然 GPT-4-Turbo 在大多数问题类型上都领先于其他机型,但在回答 Locfine问题的能力上输给了它们

在 MHop 问题上,GPT-4-Turbo 的表现明显优于其他模型,这表明它能够做出需要社会常识的推断,而其他模型较低的 MHop 值并不能充分证明这一点。

因此,本文使用下图所示的"自问 "提示进行了额外的实验。

自问提示可以是一种提示技巧,它明确地向法律硕士提出一系列后续问题,并鼓励他们通过回答这些问题推断出最终答案。

下表列出了再次使用 "自问 "提示只尝试回答 Att 问题的结果。

虽然 "自问 "提示提高了 LLMs 的 F1 分数,但与人类的表现相比仍然相差甚远,而且通过这次实验,LLMs显然缺乏感知人物心理状态的能力

摘要

结果如何?在这篇文章中,我们介绍了一篇论文,该论文建立了 OpenToM(一种用于评估生成代理在物理世界中推理心理状态能力的新基准),并通过大规模验证测试了 LLM 是否具有 "心智理论"。

本文的实验表明,参与者,尤其是 GPT-4 的参与者,具有根据位置信息和社会常识进行推理的能力,但他们缺乏感知人物心理状态的能力,不能说他们具有 "心智理论"。

另一方面,由于本实验只验证了零镜头 LLM 的性能,而且只使用了有限数量的开源 LLM,因此仍有改进的余地。

我们非常期待进一步的进展,因为进一步研究中的这些改进有可能证明法律硕士具有 "心智理论"。

本文中介绍的 OpenToM 管道和实验结果的详情可在本文中找到,感兴趣者可参考。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们