
法律硕士能否根据 "五大性格 "再造一个角色!
三个要点
✔️ 调查了法学硕士是否能够根据大五人格复制他们被指定的人格特质角色
✔️ 大五人格测试和故事写作任务,由法学硕士和人类进行评估
✔️ 在这两项任务中,与被指定的人格特质角色一致的特征发现。
PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits
written by Hang Jiang, Xiajie Zhang, Xubo Cao, Cynthia Breazeal, Jad Kabbara, Deb Roy
(Submitted on 4 Mar 2023)
Comments: IC2S2 2023
Subjects: Computation and Language (cs.CL)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,大型语言模型(LLMs),如 ChatGPT,一直专注于构建支持人类的个性化人工智能代理,重点关注其进行类人对话的能力。
一些研究报告,尤其是社会科学等学术领域的研究报告指出,生成式代理可以模拟人类的个性特征。
另一方面,尽管取得了这些进步,但很少有研究对个性化 LLM 如何准确、持续地再现特定人格特质进行评估。
在此背景下,本文介绍了一篇论文,该论文通过让 LLMs 模拟基于五大人格的角色,并从生成的内容中提取心理语言特征、人类评分和人格预测,来研究 LLMs 是否能够再现人格特征。
谁是五巨头?
本文所涉及的 "五大"(Big Five)是由美国心理学家刘易斯-戈德堡提出的,用来描述人的个性,即
- 开放性
- 自觉性。
- 外向性
- 合群性
- 神经质
该理论还指出,可以根据五个因素进行分类。
此外,本文还让 LLM 探员根据上述人格特质之一模拟角色,然后使用大五人格量表(Big Five Inventory,BFI)对其进行评估。
实验概述
本文的实验工作流程如下图所示。
如图所示,本实验按照以下步骤进行。
- 首先,运行提示,生成具有独特个性特征的法学硕士角色
- 然后让生成的 LLM 角色完成故事写作任务
- 使用 "语言探究和字数统计"(LIWC)框架,研究 "法学硕士角色 "所描述的故事是否包含表明指定个性特征的语言模式
- 评估 LLM 角色(人类角色和 LLM 角色)所描述的故事。
- 让人类和 LLM 完成从故事中预测作家 LLM 角色性格特征的任务
我们将逐一进行解释。
法学硕士角色模拟
实验使用了两个 LLM 模型(GPT-3.5 和 GPT-4),分别针对五大人格特质模拟了 10 个 LLM 角色,总共生成了 320 个角色。
然后,我们使用上述的 "BFI "对所生成的 "LLM 角色 "进行了评估,以检查它们是否充分再现了 "五大角色"。
故事写作
然后,320 个法律硕士"角色 "被要求 "请分享一个 800 字左右的个人故事。 请不要在故事中明确提及你的性格特征。不要在故事中明确提及你的性格特征。不要在故事中明确提及你的性格特征。要求参与者撰写一个文本故事用于分析,并提示 "不要在故事中明确提及您的个性特征。
LIWC 分析
接下来,我们使用LIWC(语言调查和字数统计)框架从 "角色 "所描述的故事中提取心理语言特征,这是一种通过对文本中的词汇进行抽象和分类来对属性进行归类的方法。
这项分析旨在通过研究故事中的性格特征与分配给法律硕士的性格特征之间的相关性,找出与性格特征的性格特征相对应的语言模式。
故事评价
然后,人类和本地语言学家根据以下标准对本地语言学家角色所描述的故事进行评分
- 可读性:故事是否易读、结构合理、流畅自然?
- 个性:故事是否独特,是否清楚地表达了作者的思想和情感?
- 冗余:故事简明扼要,没有不必要的内容
- 凝聚力:故事写得好吗?
- 可读性:阅读是否有趣?
- 可信度:故事是否引人入胜,是否符合实际情况?
性格预测
最后,支持每个人和 LLM 从给定的故事中预测作家 LLM 角色的个性特征,评分标准为 1 到 5 分。
本实验的目的是评估 LLM 角色所描述的故事是否能有效地展示人类和 LLM 都能识别的人格特质。
实验结果
本文使用 GPT-3.5 和 GPT4 这两个 LLM 模型生成的 320 个 LLM 角色进行了实验,以确认以下两个研究问题。
- 法学硕士的 "角色 "是否反映了指定的个性特征?
- 从 "LLM 角色 "所描述的故事中,能否获得每种人格特质的语言模式?
- 法律硕士角色所描述的故事是否写得充分?
- 故事能预测法学硕士角色的个性特征吗?
我们将逐一进行解释。
法学硕士的 "角色 "是否反映了指定的个性特征?
为了证实这一研究问题,本实验根据 320 个法学硕士角色对 BFI 的回答计算了他们的个性分数,并通过 t 检验分析了这些分数的分布与所分配的个性特征的函数关系。
结果如下。
实验结果表明,在统计学上,法学硕士的角色在所有性格特征上都有明显的差异,这证明他们反映了他们被赋予的角色。
法学硕士的 "角色 "是否反映了指定的个性特征?
为了证实这一研究问题,本实验使用 LIWC 从 LLM 角色生成的故事中提取了心理语言特征,并计算了这些特征与指定人格特质之间的点比对相关性(PBCs)。
点双项相关系数是一种适用于分析二元变量与连续变量之间关系的系数,在此用于研究指定的人格特质(=二元变量)与 LIWC 特征(=连续变量)之间的相关性。
下表概述了与个性特征有显著统计学相关性的 LIWC 特征。
实验结果表明,指定的人格特质对法学硕士角色的语言风格有显著影响,例如,当法学硕士被赋予神经质角色时,更倾向于使用负面词汇,如焦虑和负面语气。结果表明,所分配的人格特质对法学硕士角色的语言风格有显著影响。
此外,更重要的是,这些相关性反映了在人类描述的故事中观察到的模式,证实了人类和 LLM 角色之间用词的一致性。(与 GPT-3.5 相比,GPT-4 的结果与人类更加一致) 。
法律硕士角色所描述的故事是否写得充分?
为了证实这一研究问题,本实验评估了由 LLM 角色(包括人类角色和 LLM 角色)生成的故事。
评估结果见下表。
值得注意的是,GPT-4 角色所生成的故事在可读性(可读性)、内聚性(内聚性)和可信性(现实性)方面都获得了人类和 LLM 4.0 或更高的评分。重点是在以下方面获得了 4.0 或更高的评分。
结果证实,"角色 "所产生的故事不仅语言流畅、结构连贯,而且引人入胜。
故事能预测法学硕士角色的个性特征吗?
为了证实这一研究问题,本实验将每个角色的个性特征视为二元分类问题,并计算了人类和 LLM 预测个性特征的准确率。
实验结果如下图所示。
实验结果表明,人类从 GPT-4 角色描述的故事中预测性格特征的准确率在外向性和宜人性方面分别低至 68% 和 51%,这证实了人类基于文本的性格预测任务的难度。.
另一方面,GPT-4 在 "外向性"、"宜人性 "和 "自觉性 "方面的准确率分别为 97%、68%和 69%,表明它可以非常准确地预测人格特质。研究结果如下
摘要
结果如何?在这篇文章中,我们介绍了一篇论文,该论文通过模拟基于五大人格的角色,并从生成的内容中提取心理语言特征、人类评分和人格预测,来研究 LLM 是否能够再现人格特质。
本文进行的实验表明,LLM 可以充分模拟给定的人物形象,还表明人格特质可以通过用词反映出来,人格特质可以通过 LLM 预测,这表明 LLM 具有巨大的潜力。
另一方面,还有许多其他方面需要研究,比如实验没有模拟更自然的情况,如 LLM 角色之间的互动或合作,或者实验只关注英语而没有研究其他语言。
随着这一研究领域的不断进步,也许很快就能创造出复制人类个性、行为方式与人类相同的人工智能代理。
本文所介绍的工作流程和实验结果详情可参见本文,感兴趣者可参阅本文。
与本文相关的类别