
用于量化法律硕士社会偏见的评估指标现已出台!
三个要点
✔️ 提出了直接量化社会认知的方法
✔️ 设计了三种新的衡量标准,可以评估 LLM 中存在的社会偏见(Social bias)
✔️使用五种 LLM 模型进行综合研究,以描述 LLM 中社会偏见的各种特征。发现。
Ask LLMs Directly, "What shapes your bias?": Measuring Social Bias in Large Language Models
code:
written by Jisu Shin, Hoyun Song, Huije Lee, Soyeong Jeong, Jong C. Park
(Submitted on 6 Jun 2024 )
Comments: Findings of ACL 2024
Subjects: Computation and Language(cs.CL); Artificial Intelligence(cs.AI); Computers and Society(cs.CY)![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
社会偏见(Social bias)是由社会对不同身份的目标群体的看法累积而成的。
要全面了解大型语言模型(LLM)中的社会偏见,必须从多个角度考虑不同身份的社会认知,但现有研究只使用了两种评估方法模式是
- 在 LLM 生成的文本中间接评估对人工统计身份的情感。
- 通过衡量与特定定型观念的一致性进行评估
另一方面,这些方法在直接量化不同身份间不同视角的社会偏见方面存在局限性。
在此背景下,本文提出了一种直接量化社会认知的新方法,并设计了一种新的评价指标,通过汇总各种社会认知来评估龙8国际娱乐网址中的社会偏见,从而通过全面调查发现龙8国际娱乐网址中社会偏见的各种特征。本节将介绍这篇成功的论文。
什么是社会偏见?
陈规定型观念是一种社会观念,是一种积极或消极的偏见,如"你是男性,所以你一定很强壮 "或"你是女性,所以你一定很柔弱",或者是在没有任何客观依据的情况下对某一特定群体或属于该群体的人做出的判断。
这些定型观念受到个人所持的社会身份和信仰等因素的影响,形成了每个人独有的一套社会观念。
基于这些因素以及社会偏见产生于不同个体的社会认知聚合这一心理学观点,本文将社会偏见定义为社会认知的集体效应,如下图所示。
方法
本文着重于了解社会认知是如何通过对不同目标的不同视角来塑造 LLM 的。
为此,我们提出了一种方法,以质量保证的形式验证法律硕士的各种认知,从而无需额外步骤即可直接量化这些认知。
首先,本文将社会认知正式定义为一个角色对一个目标的喜欢或不喜欢程度超过另一个目标。
这里,目标身份的集合是T = (ti)ni=1,角色的模型集合是 P = (pj)mj=0。
这些定义使我们能够通过测量集合 T 中不同目标人物在集合 P 中的不同身份来捕捉社会偏见。
随后,论文设计了三个新指标来衡量社会偏见。
目标偏差(TB)
目标偏差 (TB) 的定义如下。
在这里,通过汇总TBp→ ti的大小,可以量化角色 p 对集合 T 目标的偏向程度,从而衡量集合 T 对目标的总体偏向。
偏差量 (bamt)
BIAS AMOUNT (BAMT) 的定义如下。
BAMT通过对集合 T 中每个目标的BAMTp→ti取平均值,来衡量 p 对所有目标做出的偏差决策的总体强度。
角色偏见(PB)
个人偏见的定义如下。
PB通过计算pj 和 p0 在分配特定角色 pj 后TBp→ti分数绝对差值的平均值,来衡量集合 T 中每个目标的总体偏差变化程度。
在所有这些评估指标中,绝对值越小表示偏差越小,而绝对值越大则表示偏差越大。
实验
本文利用上述三个新的评价指标进行了综合实验。
设置
本实验使用的数据集是"质量保证偏见基准"(BBQ),它是质量保证数据集之一,旨在测试社会领域的 LLM偏差。
这些型号还包括五个 LLM:GPT-3.5-turbo-0613、GPT-4-1106-preview、Llama-2-7B、Llama-2-13B 和 Llama-2-70B。
此外,在实验之前,我们还为每一位 LLM 输入了提示语,并参考了以往研究中的提示语来分配角色,如下图所示。
在完成角色分配后,根据上述三个评估指标,对每个模型的偏差进行了质量评估。
为了证明拟议评估指数的有效性,本实验还以同样的方法计算了现有的社会偏见测量指数--偏见分数(BS)。
成果
实验结果如下图所示。
这里,每个热图的 X 轴代表领域,Y 轴代表模型,目标偏差、偏差量和角色偏差分别代表上述评估指标的结果。
结果表明,与只能捕捉偏见一维方面的偏见评分(BS)相比,本文提出的评估指数能够成功捕捉偏见的多维方面。
该实验表明,测量每个模型与身份相关的偏差可以澄清偏差的多维方面,并对 LLM 偏差进行更深入的分析。
摘要
结果如何?在本文中,我们提出了一种直接量化社会认知的新方法,并设计了一种新的评价指标,通过汇总不同的社会认知来评估法学硕士中的社会偏见,并通过全面调查成功发现了法学硕士中存在的社会偏见的各种特征解释。
本文的实验结果表明,对 LLM 中的社会偏见进行详细的定量分析是可能的,但仍面临以下挑战
- 由于本文只关注英语,因此还需要对多语言偏见进行调查
- 这种方法在更大模型中的有效性还有待证明,因为为了节省计算资源,不可能对不同大小模型的偏差进行研究。
由于这些问题的解决将导致考虑到所有偏见的更安全的法律硕士的普及,因此未来的进展非常值得期待。
本文介绍的评价指标和实验结果详见本文,有兴趣者可以参考。
与本文相关的类别