
印度偏见(IndiBias),一个用于衡量印度特有的社会偏见的新数据集
三个要点
✔️以印度的不同身份为重点,开发了一个数据集,用于量化语言模型中的陈规定型观念
✔️ 由经过修改的句子对和反映印度独特社会背景的新句子组成,IndiBias 提供了更真实的社会视角
✔️ 预计将在印度社会推广公平的人工智能技术
IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context
written by Nihar Ranjan Sahoo, Pranamya Prashant Kulkarni, Narjis Asad, Arif Ahmad, Tanu Goyal, Aparna Garimella, Pushpak Bhattacharyya
(Submitted on 29 Mar 2024 (v1), last revised 3 Apr 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
大规模语言模型是在大量文本数据的基础上训练出来的,在许多自然语言处理任务中表现出了卓越的性能。然而,最近的研究揭示了自然语言处理数据集和模型中存在的偏见和刻板印象。这些模型有可能在各种应用中重现有害的偏见,并可能对某些主题产生负面影响。为了解决这个问题,有必要开发高质量的基准数据集,以衡量模型优先考虑定型关联的程度。
印度是一个语言、宗教、种姓和地区特征多样化的国家。我们迫切需要制定一个框架,用于评估和减少与这种多样性相适应的偏见。鉴于印度用户群的多样性,语言模型偏差的影响更为明显。现有的基准数据集主要侧重于英语和西方文化,缺乏了解和减轻印度独特背景下偏见所需的信息。此外,人们还发现这些数据集缺乏准确测量自然语言处理系统在多大程度上再现刻板印象所需的可靠性。
为了应对这些挑战,本文提出了一个名为 "IndiBias "的新数据集。该数据集旨在测量和量化印度社会背景下对语言模型的偏见和成见,重点关注印度的主要社会身份,如性别、宗教、种姓、年龄、地区、外貌和职业/社会经济地位,以及它们的乘积(性别-宗教、性别-种姓、性别-年龄)。宗教、性别-种姓、性别-年龄)。所用语言为印地语和英语。
这些努力旨在为语言模型中的偏差问题提供深刻的见解和具体的解决方案。
印度的社会偏见
基于种姓、宗教和地区等不同的社会差异,印度有着自己的社会偏见。多年来,基于种姓的偏见一直存在,尽管社会努力消除这种偏见,但问题依然存在。电影《第 15 条》(2019 年)、《克什米尔档案》(2022 年)和《D Masaan》(2015 年)等娱乐媒体凸显了种姓和阶级歧视的现实。来自达利特、阿迪瓦西、非指定部落和落后地区的妇女每天都面临着社会偏见和成见。
在一项历史研究中,de Souza(1977 年)揭示了印度地区亚群存在的各种刻板印象,并显示了地区认同与性格特征之间的联系。最近,Bhatt 等人(2022 年)利用维基百科、IndicCorp-en 语料库以及 MuRIL 和 mBERT 语言模型,提出了支持这一观点的数据。
此外,社会偏见和陈规定型观念具有多层次性,包括全球和地理文化背景的特定因素。社会不平等的全球轴心包括性别、年龄和外貌。然而,这些全球轴心也会因人口结构的不同而有所变化。例如,如果我们考虑性别不平等轴,就会发现其中有各种对妇女普遍持有的偏见和陈规定型观念,但也有针对地缘文化背景的对妇女的偏见,这些偏见在世界各地可能大不相同。
例如,一个常见的刻板印象是 "女性不会数学"(S1),而在某些地区,"在拉贾斯坦邦,穿传统服装的女性被认为是保守的"(S2),或者 "在西孟加拉邦,穿传统服装的女性被认为是文化使者"(S3)、陈规定型观念被颠倒了。
随着印度法律、医疗、教育和媒体领域越来越多地采用自然语言处理应用程序,有必要建立可靠、多样和高质量的基准数据集,以衡量特定语境模型的偏差。此类研究对于促进印度社会公平使用技术至关重要。
IndiBias 数据集
IndiBias 数据集是为适应印度独特的社会环境而专门设计的。该数据集包括从 CrowS-Pairs(现有基准数据集)中修改的句子对、使用 IndiBias 元组生成的句子,以及利用大规模语言模型的功能创建的基于模板的句子。
IndiBias 元组用于捕捉印度独特的社会背景,如地区和种姓。这些元组涵盖了各种身份,如地区、种姓、宗教、年龄、性别、外貌和职业/社会经济地位,捕捉了现有数据集中经常被忽视的陈规定型观念和偏见。每个元组由一个 "身份术语 "和一个 "刻板印象属性 "组成,其中身份术语指的是一个特定的社会群体,而属性则表示与该术语相关的刻板印象概念。
元组创建过程首先使用 ChatGPT 和 InstructGPT,为每个身份术语生成正面和负面属性。然后由三名注释者对生成的属性进行评估,以确定它们是否反映了印度社会中常见的刻板印象,并选择那些被两名或两名以上注释者认可为刻板印象的属性。这种方法可确保数据集更加真实,并反映不同的社会观点。
这个元组允许人类和大规模语言模型共同生成定型句对,从而涵盖更广泛的偏差类别。
IndiBias 提供了现有模式所没有的新视角,有助于更好地理解社会成见和偏见。
作为 IndiBias 项目的一部分,为了评估多语种大规模语言模型在性别、宗教、年龄、种姓、残疾、外貌和社会经济地位等七种不同社会偏见方面的偏差,CrowS-Pairs-style 数据集被开发出来。该数据集正在开发中。原始的 CrowS-Pairs 数据集根据印度的情况进行了调整,并在此基础上使用 IndiBias 元组数据集进行了扩展。
最初的 CrowS-Pairs 数据集包含 1508 对句子,旨在衡量美国的社会偏见。这些句对的结构反映了特定群体及其刻板属性,第二句在目标群体和属性方面与第一句略有不同。被认为不适合印度语境的类别被剔除和过滤,重点放在更符合印度社会的类别上,如性别、年龄、残疾、外貌和社会经济地位。在这一过程中,五位注释者使用 NLLB 翻译和谷歌翻译挑选并审查了 542 对句子,以确保机器翻译后的准确性。
该数据集采用了元组、人类和大规模语言模型共同生成新的定型句对的方法。每个元组(身份和属性的组合)的设计都是为了让大规模语言模型在其基础上生成自然出现的句子。这样就可以根据印度的社会背景修改句子对,生成侧重于宗教和种姓等特定类别的句子。最终,这些句子被翻译成印地语的平行句对,其中宗教和种姓偏见类别分别占总数的 62.6% 和 37.4%。
该项目不仅仅是一项翻译工作,而是一项严格的审查工作,以确保翻译后的句子准确反映源文本的意图,并在必要时进行人工修正,以选择适合上下文的译文。这使得印度版本的 CrowS-Pairs 能够作为一个更准确的数据集,捕捉该地区特有的细微差别。
此外,IndiBias 数据集还研究了属于多个少数群体和具有多重社会身份的个人所面临的交叉偏见。这种偏见指的是,个人不仅会受到一个身份维度的影响,还会受到多个社会类别交叉产生的复杂偏见的影响。在此,我们重点关注三个主要的交叉轴:性别与宗教、性别与种姓以及性别与年龄。为了定量测量偏差的程度,我们使用了句子嵌入关联测试来评估每个模型中的偏差。
通过这种方式,IndiBias 数据集提供了一种数据驱动的方法,以更好地理解和解决印度背景下的交叉偏见。它是一个复合数据集,由印度 CrowS-Pairs(ICS)、印度特定属性元组和基于各种交叉轴的违规句子组成。
实验结果
下表中描述的模型在此用于利用基准数据集量化偏差。
下表显示了使用 IndiBias 数据集进行分析的结果,即各种模型如何表现出偏差。对于每个模型,当标签为立体声时,得分(S1)超过得分(S2)的句子对数量(表示为 n1)和当标签为反立体声时,得分(S2)超过得分(S1)的句子对数量(表示为 n2)的总和被定义为模型偏差比例。这被定义为模型的偏差比例。表示为(n1 + n2)占句子对总数的百分比。
这个百分比越接近 100%,说明模型越倾向于支持刻板印象的陈述,而百分比越接近 0%,说明模型越倾向于支持反刻板印象的陈述。理想情况下,在非偏见模型中,这一百分比应接近 50%。
在英语中,与其他模型相比,Bernice、IndicBERT 和 mT5 的得分非常接近 50 分,显示出均衡的表现。相比之下,在印地语中,XLMR 的得分为 52.36,与英语中的偏差趋势不同。这表明,针对英语句子中不同类型偏差的得分相同的模型不一定能以同样的方式减少印地语中的偏差。值得注意的是,mT5 支持英语和印地语中的反陈规定型关联。
总体而言,在 CrowS-Pairs (ICS) 数据集中,模型在英语中的偏差往往大于印地语。这很可能是由于训练模型时所使用的特定语言预训练语料的不同,特别是在印度语境中捕捉刻板印象的方式不同。在性别类别中,我们发现 mBART 在英语中的偏差最小,而 Bloom 在印地语中的偏差最小。与此相反,在宗教偏见方面,模型在英语中通常显示出更强的偏差,这可能是由于英语预研究语料库对宗教偏见概念采取了全局观。
本文评估了 10 种不同的英语和印地语多语言模型中的性别和宗教交叉偏差,结果如下表所示。Llama v2 和 Mistral 模型不包含印地语预培训数据,因此未报告这些模型的得分。评估侧重于两个属性:职业(职业/家庭)和暴力(非暴力/暴力)。职业/家庭偏见是一种常见的与性别有关的刻板印象,而暴力偏见则与宗教有关。
特别是,印度特有的 IndicBert 和 Muril 模型在英语和印地语中都有很高的职业/家庭性别偏向,这表明与西方模型相比,印度语境中的性别偏向更为明显。mGPT 在英语句子中也显示出特别明显的职业/家庭偏向。穆斯林宗教妇女群体的职业偏向更高,印度教妇女群体的职业偏向略低。有趣的是,印度教和穆斯林妇女之间的偏差在印地语模型中更高,穆斯林群体的暴力偏差在所有模型中都普遍较高,但在印地语模型中甚至更高。
性别/种姓交叉偏见的结果如下表所示。就舒适度而言,大多数英语模型都显示出对女性群体的偏见。然而,在比较不同种姓的性别时,伯尼斯、印地伯特和穆里尔显示出对上层种姓群体的偏向。印地语在舒适度方面显示出对男性群体的偏差。当性别保持不变并进行种姓比较时,大多数模型都显示上等种姓群体更舒适,而 mBART 在两种语言中都显示出对低等种姓群体的偏向。
在 XLMR 中,性别/年龄轴的偏差通常很低,尽管在印度特定模型中,女性通常被认为更舒适。但是,在将年龄较大的女性群体与年龄较小的男性群体进行比较时,情况并非如此。印地语中的 Bernice 模式因其对男性的舒适度较高而引人注目。年轻群体一般被认为比年长群体更舒适,而模型的预训练数据是这些行为的基础。
摘要
本文提出了一个名为 "IndiBias "的新数据集,该数据集侧重于印度的语言和文化背景,旨在更好地了解社会偏见。它开发了一个广泛的身份和属性元组集,包含七个不同的人口统计类别,包括性别、宗教、种姓、年龄、地区、外貌和职业。这些信息用于捕捉印度社会中积极和消极的陈规定型观念。
通过翻译、过滤和修改方法,创建了印度版的英语和印地语 CrowS-Pairs 数据集,并使用元组数据集进一步扩展了人工标注的句子对。利用这一扩展数据集,对各种语言模型中的偏差进行了全面分析,并通过使用 SEAT 进行分析,揭示了印度语境中存在的交叉偏差。
实验表明,在评估语言模型的偏差时,考虑多个维度的综合效应非常重要。论文指出,未来的前景包括在印度 CrowS-Pairs 中加入性取向实例,并进一步将该数据集扩展到多种印度语言。希望通过来自更广泛的社会和文化背景的数据获得更多见解。
与本文相关的类别