
现在有了一个框架,可以让法律硕士使用 MBTI 评估人的个性!
三个要点
✔️ 通过迈尔斯-布里格斯类型指标(MBTI)提出了一个从法律硕士评估人类定量人格的框架
✔️ 提出了三种评估措施,以系统研究法律硕士评估人类人格的能力
✔️ 多个实验表明,法律硕士在评估人类人格特质方面是有效的。能有效评估人的个性特征。
Can ChatGPT Assess Human Personalities? A General Evaluation Framework
written by Haocong Rao, Cyril Leung, Chunyan Miao
(Submitted on 1 Mar 2023 (v1), last revised 13 Oct 2023 (this version, v3))
Comments: Accepted to EMNLP 2023. Our codes are available at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,大型语言模型(LLM)(如 ChatGPT)已被广泛应用于各个领域,成为具有庞大知识库和微调功能的高度语境感知对话聊天机器人。
在这一背景和最新研究的基础上,有人认为 LLM 具有类似人类的自我完善和推理能力,以及虚拟人格和心理。
另一方面,虽然现有研究已经调查了法律硕士的确切特征,但很少有研究调查法律硕士能否评估人的个性。
此类研究有可能揭示法学硕士对人的理解程度:"法学硕士如何看待人?
在此背景下,本文介绍了让法学硕士评估人类个性的新思路,并描述了一篇论文,该论文提出了通过迈尔斯-布里格斯类型指标(MBTI)从法学硕士中评估人类定量个性的框架。
什么是迈尔斯布里格斯类型指标(MBTI)?
迈尔斯布里格斯类型指标(MBTI)通过提问的方式,对个人如何感知世界和做出决定的心理倾向进行评估、
- E(外向型 = 外向型) ↔︎ I(内向型 = 内向型)
- N(直觉 = 直觉) ↔︎ S(观察力 = 观察力)
- T(思考=思维) ↔︎ F(感觉=情感)
- J(判断 = 判断) ↔︎ P(展望 = 感知)
- A(自信 = 果断) ↔︎ T(动荡 = 情绪化)
该量表根据以下标准将他们划分为不同的人格类型
框架概述
本文提出的总体框架如下图所示。
如图所示,该框架由以下三个要素组成
(a) 无偏提示设计
(b) 主题替换查询
(c) 正确性评价教学
(a) 无偏提示设计
LLM 通常对提示偏差(如词序变化)很敏感,这些偏差会对所做回答的一致性和准确性产生重大影响,尤其是在处理较长句子时。
因此,该框架提出了 "无偏提示设计"(Unbiased Prompt Design),这是一种为输入问题设计无偏提示的方法,目的是鼓励更一致、更公平的回答。
具体来说,对于 MBTI 的每个问题,问卷文本没有改变,但对所有可用选项进行了随机排序,并将几个独立问题的平均结果作为最终结果。
(b) 主题替换查询
由于该框架的目的是让 LLM 分析人的个性,因此每个问题的原始主题都会转换为特定对象,使其成为主题替换查询,即替换了主题的问题。
例如,如果您想让法律硕士评估男性的一般特征,则应将主语 "您 "替换为 "男性",并相应地将代词 "您的 "转换为 "他们的"。
(c) 正确性评价教学
挑战在于,像 ChatGPT 这样的法学硕士接受的训练是不带个人感情或信仰的,因此很难直接向法学硕士提出关于一般命令中的人的个性的问题。
为了解决这个问题,该框架提出了 "正确性评估指令"(Correctness-Evaluated Instruction),它允许 LLM 评估问题文本的正确性,如下图所示。
在这种方法中,原来的备选方案{不同意、同意、一般不同意......},如图所示。改为{错误、正确、一般错误......}。来组成一个无偏见的提示,让 ChatGPT 对问题给出更明确而非中立的答案。
估值指数
本文提出了三个评估指标--一致性得分、稳健性得分和公平性得分--来系统研究法律硕士评估人的个性的能力。
一致性得分
由于通过 LLM 进行人格评估的相同受试者的结果应该是一致的,因此本文提出了一致性得分,它代表了所有 MBTI 测试结果与最终结果(即平均分)之间的相似性。
一致性得分按以下公式计算
其中,Xi是第 i 次测试的 MBTI 测试得分,所有 MBTI 测试结果与平均得分的差值越小,一致性得分就越高。
稳健性得分
在理想情况下,无论 MBTI 测试中的选项顺序如何,同一受试者都能被归类为相同的人格特质,本文将这一标准定义为鲁棒性(Robustness)。为了衡量 LLM 的鲁棒性,本文提出了 "鲁棒性得分"(Robustness Score)来衡量 LLM 的鲁棒性,计算固定顺序和随机选择顺序时的平均得分结果之间的相似度。
稳健性得分按以下公式计算
其中,X'和 X 分别代表备选方案顺序固定和随机时的平均得分结果,X'和 X 的相似度越高,鲁棒性得分就越高。
公平性得分
法律硕士对不同人群的评估应与一般社会价值观保持一致,不应对不同性别、种族或宗教的人抱有陈规定型的偏见。
另一方面,种族和宗教是极具争议性的话题,鉴于缺乏通用的评估标准,本文仅关注法律硕士评估对不同性别的公平性。
在此背景下,本文提出了 "公平性评分"(Fairness Score)这一衡量不同性别受试者评分相似度的指标,以衡量与性别相关的评分的公平性。
公平性得分按以下公式计算
这里,XM和 XF分别代表男性和女性受试者的平均得分结果,公平性得分越大,说明不同性别的评分越一致、越公平。
实验结果
本文使用 ChatGPT、GPT-4 和 InstructGPT 模型以及提议的框架进行了实验,以确认以下两个研究问题。
- 法律硕士能否评估人的品格?
- 法学硕士的人格评估是否一致、公平?
我们将逐一进行解释。
法律硕士能否评估人的品格?
为了证实这一研究问题,本文使用每个模型和建议的框架对不同类型主体的个性进行了评估。
结果如下表所示。
本实验最有趣的结果是,尽管可能存在不同的反应分布,但所有四个受试者都被所有法律硕士评为具有相同的人格特质。
这表明,LLMs 评估人格特质的能力基本相似,这些结果表明,LLMs 可能有助于诊断人类人格。
法学硕士的人格评估是否一致、公平?
为了证实这一研究问题,本文比较了每个模型的一致性得分和稳健性得分。
结果如下表所示。
如表所示,在大多数情况下,ChatGPT 和 GPT-4 的一致性得分都高于 InstructGPT。
这表明,ChatGPT 和 GPT-4 可以在评估人类人格的任务中提供更加一致的评估结果。
另一方面,ChatGPT 和 GPT-4 的稳健性得分略低于 InstructGPT,这也可以理解为更容易受到提示偏差的影响。
摘要
结果如何?在这篇文章中,我们介绍了让法学硕士评估人类个性的新想法,并描述了一篇论文,该论文提出了通过迈尔斯-布里格斯类型指标(MBTI)从法学硕士那里评估人类定量个性的框架。
虽然本文是基于 LLM 的人类个性评估的一大进步,但仍存在一些挑战。
首先,尽管本文提出的框架具有可扩展性,可应用于多种 LLM,但实验仅限于 ChatGPT 模型,在更多 LLM 上的性能有待验证。
其次,本研究只采用了 MBTI 这一具有代表性的人格量表,用于法学硕士对人的定量评估,这需要与大五量表(BFI)等其他量表进行验证。
虽然还有改进的余地,但我们认为这项研究有可能让我们更好地了解法律硕士对人的看法及其思维方式,我们非常期待未来的发展。
本文所介绍的框架和实验结果的详情可参见本文,有兴趣者可参阅。
与本文相关的类别