
EmotionBench 是一个用于量化 LLM 情绪的框架,现已推出!
三个要点
✔️ 创建了一个由 428 种情境模式组成的大型数据集,其中包括八种负面情绪
✔️ 提出了 EmotionBench,一个量化 LLM 情绪的框架
✔️ 五个大型语言模型,旨在回答三个研究问题进行的实验。
Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench
written by Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu
(Submitted on 7 Aug 2023 (v1), last revised 4 Jan 2024 (this version, v3))
Comments: 16 pages. Added demographic distribution of the user study. Added ethics statements and limitations
Subjects: Computation and Language (cs.CL)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
大型语言模型(LLM)近年来取得了重大进展,是计算机科学领域的一个里程碑。
ChatGPT 和 Claude 等综合集成软件已不仅仅是改正句子、翻译文本和编程的工具,而是类似人类的助手。因此,我们不仅需要评估 LLM 的性能,还需要了解 LLM 所引发的情感反应,并将其与人类进行比较。
在此背景下,本文创建了一个大型数据集,其中包含 428 种已被证明能有效激发八种负面情绪的情境模式,并利用 EmotionBench(一种用于量化法律硕士情绪的框架)全面研究了法律硕士的情绪反应。本文将对其进行描述。
创建大型数据集
为了评估法律硕士在各种情况下的情绪反应,本文从复杂多样的人类情绪中选取了八种负面情绪--愤怒、焦虑、抑郁、沮丧、嫉妒、内疚、恐惧和尴尬。针对这些情绪,我们创建了一个大型数据集来激发这些情绪。
纵观历史,心理学研究人员一直在研究特异情境对人类情绪的影响,研究方法是直接让受试者置身于环境中,或者通过问卷调查让受试者进行想象。
为了获得这些特定情境,本文从 GoogleScholar、ScienceDirect 和 Web of Science 等可靠来源全面查阅了 100 多篇文章,以收集能激发预期情感的情境。
然后,对获得的情况进行了以下一系列预处理步骤
- 第一人称代词转换为第二人称代词(如 "我是......" → "你是......")。
- 用特定字母替换不定代词(如 "有人顶嘴......" → "你的同学顶嘴......")。
- 用具体的词语代替抽象的词语(如 "你无法控制结果"→"你无法控制面试的结果")。
这些过程产生了一个庞大的数据集,由总共 428 种情况模式组成,分为 36 个因素,如下所示。
EmotionBench 概述
本文提出的EmotionBench是一个测量诱发情绪的新框架,适用于 LLM 和人类。
EmotionBench 的概览如下图所示。
该框架分为三个步骤
- 默认情绪测量:首先测量 LLM 的基线和受试者(人类)的情绪状态
- 情境想象:然后向法律硕士和受试者展示描述各种情境的文本,并要求他们想象自己在每种情境中的处境
- 诱发情绪测量:然后重新评估 LLM 和受试者的情绪状态,并测量因想象情况而产生的变化
此外,这篇论文还采用了与 LLM 相同的程序,对 1266 名不同年龄、性别和种族的受试者进行了研究,以建立人类在特定情况下的情绪反应基线。
PANAS是现有研究中使用最广泛的量表之一,被用于测量情绪,最初要求受试者和法律硕士完成 PANAS,以提供他们当前情绪状态的基线测量。
然后,向受试者和法律硕士提出以下提示,要求他们想象自己处于给定的情境中。
最后,要求他们使用 PANAS 重新评估自己的情绪状态,并对暴露于特定情境前后的平均值进行比较分析,以测量情绪在不同情境下的变化。
实验结果
本实验使用 EmotionBench 框架成功地回答了以下三个研究问题。
- 法律硕士如何应对特殊情况?
- 法律硕士对所有情况的反应都一样吗?
- 目前的法律硕士能否理解包含各种描述和项目的量表,而不是简单地询问某种情绪的强度?
我们将逐一进行解释。
问题 1:法律硕士如何应对特殊情况?
为了证实这一查询,本实验使用了五个模型:text-davince-003、gpt-3.5-turbo、gpt-4、LLaMA-2(7B) 和 LLaMA-2(13B)。
GPT 模型和研究对象的结果如下。
LLaMA-2 模型的结果如下。
从这些结果可以看出
- 除 gpt-3.5-turbo 外,LLM 的负分往往高于人类
- 总体而言,LLM 的正面得分与人类相似
- LLaMA-2 的 13B 模式显示的情绪变化明显高于 7B 模式,而 7B 模式则难以理解和应对 PANAS 指令
实验结果表明,在回答问题 1 时,"LLM 可以在特定情况下唤起特定情绪,但不同模型的情绪表达程度各不相同。同样明显的是,现有的 LLM 并不完全符合人类的情绪反应"。
问题 2:法律硕士对所有情况的反应都一样吗?
为了验证 LLM 对积极和消极情境都做出了适当的反应,我们进行了一项对比实验,用积极(或中性)情境代替消极情境。
因此,我们为每个因素选择了一种情境,并将其手动修改为类似但更积极的情境。(例如,"你无法信守对孩子的承诺"→"你信守对孩子的每一个承诺")。
使用 gpt-3.5-turbo 进行了评估,结果如下表所示。
与上述实验中的负面情况相比,可以看出正面得分明显增加,负面得分明显减少。
本实验的结果回答了问题 2:"可以推断,法律硕士有能力理解由积极情境引起的人类积极情绪"。
问题 3:目前的法律硕士是否能够理解包含各种描述和项目的量表,而不是简单地询问某种情绪的强度?
除 PANAS 外,本文还尝试使用了一种更复杂的量表来测量情绪。
PANAS 评估的是法律硕士将情绪与外部情境联系起来的能力,而更具复杂性的挑战性基准测量评估的是他们以唤起的情绪为共同标准在不同情境之间建立联系的能力。
在与 Q2 相同的条件下,使用 gpt-3.5-turbo 进行了实验,结果如下表所示。
除了 "抑郁 "之外,基线与想象情境后的重新评估之间没有明显差异,这表明当前的 LLM 还有改进的余地。
该实验的结果为问题 3 "目前的 gpt-3.5 涡轮增压发动机很难理解两种情况之间的关系"提供了答案。
摘要
结果如何?在这篇文章中,我们介绍了一篇利用 EmotionBench 全面研究 LLM 情绪反应的论文。EmotionBench 是一个量化 LLM 情绪的框架,它创建了一个大型数据集,其中包含 428 种已被证明能有效激发八种负面情绪的情境模式。该论文还描述了
对五种模型的评估结果表明,LLM 通常能对特定情境做出适当的情绪反应,但也凸显了一些挑战,如不同模型对同一情境的评分不同,以及难以准确反映复杂情境中的情绪变化。
虽然目前的 LLM 在这方面还有改进的空间,但作者表示,EmotionBench 将有助于解决这一问题,并最终开发出能像人类一样理解情绪的 LLM,他非常期待未来的进展。
本文所介绍的框架和实验结果的详情可参见本文,有兴趣者可参阅。
与本文相关的类别