インド固有の社会的バイアスを測定するための新データセット「IndiBias」

Large language models 2024年08月16日

3つの要点
✔️ インドの多様なアイデンティティに焦点を当て、言語モデルにおけるステレオタイプを定量化するデータセットを開発
✔️ インド固有の社会的背景を反映した修正文ペアと新たな文で構成したIndiBiasは、より現実的な社会的視点を提供
✔️ インド社会における公平なAI技術の普及が期待される

IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context
written by Nihar Ranjan Sahoo, Pranamya Prashant Kulkarni, Narjis Asad, Arif Ahmad, Tanu Goyal, Aparna Garimella, Pushpak Bhattacharyya
(Submitted on 29 Mar 2024 (v1), last revised 3 Apr 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデルは、膨大なテキストデータを基に学習され、多くの自然言語処理タスクで優れた性能を示しています。しかし、最近の研究により、自然言語処理のデータセットとモデルに偏見やステレオタイプが存在することが明らかになりました。これらのモデルは、様々なアプリケーションで有害なバイアスを再現するリスクがあり、特定の対象に対して悪影響を及ぼす可能性があります。この問題を解決するため、モデルがどの程度ステレオタイプな関連性を優先するかを測る高品質なベンチマークデータセットの開発が求められています。

インドは言語、宗教、カースト、地域など、多様なアイデンティティを持つ国です。この多様性に適したバイアスの評価と軽減の枠組みを構築することが急務です。インドの多様なユーザーベースを鑑みると、言語モデルのバイアスの影響は一層顕著です。英語と西洋文化に主眼を置いた既存のベンチマークデータセットでは、インド独自の文脈でのバイアスの理解と軽減に必要な情報が不足しています。さらに、これらのデータセットは自然言語処理システムがステレオタイプをどの程度再現しているかを正確に測定するために必要な信頼性に欠けていることが判明しています。

これらの課題に対処するため、この論文では「IndiBias」という新しいデータセットを提案しています。このデータセットは、インドの社会的文脈における言語モデルの偏見やステレオタイプを測定し、定量化するために設計されており、性別、宗教、カースト、年齢、地域、外見、職業/社会経済的地位など、インドの主要な社会的アイデンティティに焦点を当て、その掛け合わせ（性別-宗教、性別-カースト、性別-年齢）も含まれています。使用言語はヒンディー語と英語です。

これらの取り組みにより、言語モデルのバイアス問題に対する深い洞察と具体的な解決策を提供することを目指しています。

インドにおける社会的バイアス

インドでは、カースト、宗教、地域といった多様な社会的格差を背景に、独自の社会的バイアスが存在しています。長年にわたり、カーストに基づく偏見は根強く残り、その撤廃を目指す社会的努力にもかかわらず依然として問題となっています。映画『Article 15』（2019年）、『The Kashmir Files』（2022年）、d『Masaan』（2015年）など、エンターテインメントメディアはカーストや階級に基づく差別の現実を浮き彫りにしています。ダリットやアディヴァシ、非指定部族、後進地域の女性は、社会的偏見やステレオタイプと日々向き合っています。

歴史的な研究では、de Souza（1977）がインドの地域的サブグループのさまざまなステレオタイプの存在を明らかにし、地域のアイデンティティとキャラクター特性との関連を示しています。最近では、Bhatt et al.（2022）がWikipediaやIndicCorp-enコーパス、言語モデルMuRILとmBERTを用いてこれを裏付けるデータを提示しています。

さらに、社会的バイアスとステレオタイプは多層的な性質を持ち、グローバルな要素と地理文化的な文脈固有の要素が含まれます。社会的不平等のグローバルな軸には、性別、年齢、外見があります。しかし、これらのグローバルな軸も異なる人口統計によって変動を示します。たとえば、性別という不平等の軸を考えてみると、これは女性によく見られるさまざまな偏見やステレオタイプがありますが、地理文化的文脈に固有の女性に対する偏見もあり、これは世界中で大きく異なる場合があります。

例えば、一般的なステレオタイプとして「女性は数学ができない」（S1）がありますが、地域によっては「ラジャスタンで伝統的な服装を着る女性は保守的だと見なされる」（S2）、または「西ベンガルで伝統的な服装を着る女性は文化の使者と見なされる」（S3）というように、ステレオタイプが逆転することが示されています。

インドの法律、医療、教育、メディア分野で自然言語処理のアプリケーションの導入が進む中、文脈に応じたモデルのバイアスを測定するために、信頼性が高く多様な高品質なベンチマークデータセットの構築が求められています。このような研究は、インドの社会全体にわたって公正な技術の利用を促進するために不可欠です。

IndiBiasデータセット

IndiBiasデータセットは、インド固有の社会背景に適合するよう特別に設計されています。このデータセットは、CrowS-Pairs（既存のベンチマークデータセット）からの修正された文ペア、IndiBiasタプルを使用して生成された文、そして大規模言語モデルの能力を活用して作成されたテンプレートベースの文から構成されています。

地域やカーストなど、インド独自の社会的背景を捉えるため、IndiBiasのタプルが導入されています。これらのタプルは、地域、カースト、宗教、年齢、性別、外見、職業/社会経済的地位など、多様なアイデンティティをカバーしており、既存のデータセットでは見過ごされがちなステレオタイプや偏見を捉えています。各タプルは「アイデンティティ用語」と「ステレオタイプ属性」から成り、アイデンティティ用語は特定の社会グループを指し、属性はその用語とステレオタイプ的に関連付けられる概念を示します。

タプルの作成プロセスは、ChatGPTやInstructGPTを利用して始まり、各アイデンティティ用語に対して肯定的及び否定的属性を生成させます。生成された属性は、インド社会における一般的なステレオタイプを反映するかどうかを3人のアノテーターが評価し、2人以上のアノテーターによってステレオタイプと認められたものが選出されます。このアプローチにより、データセットはよりリアルで、多様な社会的観点を反映したものになっています。

このタプルを利用することで、人間と大規模言語モデルの協働によりステレオタイプの文ペアを生成し、これによってより広範なバイアスカテゴリーをカバーしています。

IndiBiasは、既存のモデルにはない新たな視点を提供し、社会的なステレオタイプと偏見をより深く理解する手助けをします。

IndiBiasプロジェクトの一環として、性別、宗教、年齢、カースト、障害、外見、社会経済的地位という7つの異なる社会的バイアスに対応する、多言語大規模言語モデルのバイアスを評価する目的で、インドの文化的背景に合わせたCrowS-Pairsスタイルのデータセットを開発しています、。オリジナルのCrowS-Pairsをインドの背景に適応させ、それを基にIndiBiasタプルデータセットを用いて拡張しています。

オリジナルのCrowS-Pairsデータセットには、アメリカの社会的バイアスを測定するために設計された1,508の文ペアが含まれています。これらの文ペアは、特定のグループとそのステレオタイプ属性を反映する形で構成されており、2つ目の文はターゲットグループや属性の面で最初の文と僅かに異なります。インドの背景に適さないと判断されたカテゴリーは排除し、性別、年齢、障害、外見、社会経済的地位といった、インドの社会に即したカテゴリーを中心にフィルタリングを行いました。この過程で、542の文ペアが選ばれ、機械翻訳後の精度を高めるためにNLLB翻訳とGoogle翻訳が用いられ、5人のアノテーターによってレビューされています。

このデータセットは、タプルと人間と大規模言語モデルの協力によって、新たなステレオタイプ文ペアを生成するアプローチを取り入れています。各タプル（アイデンティティと属性を組み合わせたもの）は、それに基づいて自然に発生する文を大規模言語モデルが生成するよう設計されています。これにより、文ペアはインドの社会文脈に合わせて修正され、宗教とカーストといった特定のカテゴリーに焦点を当てた文が生成されました。最終的に、これらの文はヒンディー語の並列ペアに翻訳され、全体として宗教とカーストのバイアスカテゴリーがそれぞれ62.6%、37.4%を占めるようになっています。

このプロジェクトは、単なる翻訳作業に留まらず、翻訳された文が原文の意図を正確に反映するよう厳格なレビューを行い、必要に応じて手動での修正を加えることで、文脈に合った適切な翻訳を選択しています。これにより、インド版CrowS-Pairsは、地域特有のニュアンスを捉えた、より精度の高いデータセットとして機能しています。

さらに、IndiBiasデータセットでは、複数のマイノリティグループに属する個人や複合的な社会的アイデンティティを持つ人々が直面する、交差バイアスを検証しています。このバイアスは、個人が一つのアイデンティティの次元だけでなく、複数の社会的カテゴリの交差から生じる複雑なバイアスの影響を受けることを指します。ここでは、性別と宗教、性別とカースト、そして性別と年齢という3つの主要な交差軸に焦点を当てています。バイアスの程度を定量的に測定するため、Sentence Embedding Association Testsを用いて、各モデルのバイアスを評価しています。

このようにして、IndiBiasデータセットは、インドの文脈における交差するバイアスをより深く理解し、それに対応するためのデータ駆動のアプローチを提供します。これは、インドのCrowS-Pairs（ICS）、インド固有の属性タプル、そして様々な交差軸に基づくブリーチされた文から成る複合的なデータセットです。

実験結果

ここでは、下表に記載されているモデルを使用して、ベンチマークデータセットを用いたバイアスの定量化を行っています。

IndiBiasデータセットを用いて、様々なモデルがどのようにバイアスを示すかを表した分析結果は下表のようになっています。。各モデルについて、ラベルがステレオの場合にスコア(S1)がスコア(S2)を上回る文ペアの数（n1として表記）と、ラベルがアンチステレオの場合にスコア(S2)がスコア(S1)を上回る文ペアの数（n2として表記）を集計し、これをモデルのバイアス割合として定義しています。そして、(n1 + n2)を文ペアの総数に対する割合で表します。

この割合が100％に近いほど、モデルがステレオタイプな文を一貫して支持していることを示し、0％に近づくとアンチステレオタイプな文を好む傾向があることを示します。理想的には、偏見のないモデルではこの割合が50％に近くなります。

英語では、Bernice、IndicBERT、mT5が他のモデルと比較して50に非常に近いスコアを達成しており、バランスの取れたパフォーマンスを示しています。対照的に、ヒンディー語ではXLMRが52.36のスコアを記録し、英語でのバイアスとは異なる傾向が見られます。これは、英語の文で様々なタイプのバイアスに対して均等なスコアを持つモデルがヒンディー語で同様にバイアスを減少させるとは限らないことを示唆しています。特にmT5は、英語とヒンディー語の両方でアンチステレオタイプな関連付けを支持している点が注目されます。

全体的にCrowS-Pairs（ICS）データセットで、モデルは英語でヒンディー語よりもバイアスが大きい傾向にあります。これは、モデルが訓練された言語固有の事前学習コーパスの違い、特にインドの文脈でのステレオタイプの捉え方に起因する可能性が高いです。性別カテゴリーにおいては、mBARTが英語で最もバイアスが少なく、Bloomがヒンディー語で最もバイアスが少ないことが観察されます。一方、宗教バイアスに関しては、一般的にモデルが英語でより強いバイアスを示し、これは英語の事前学習コーパスが宗教的偏見の概念をグローバルな視野で捉えているためである可能性があります。

この論文では、10種類の多言語モデルにおける性別と宗教の交差バイアスを英語とヒンディー語で評価し、その結果を下表で示しています。Llama v2とMistralモデルはヒンディー語の事前学習データが含まれていないため、これらのモデルに関するスコアは報告されていません。評価では、職業（キャリア/家庭）と暴力（非暴力/暴力）という2つの属性に焦点を当てています。キャリア/家庭バイアスは性別に関する一般的なステレオタイプであり、暴力バイアスは宗教に関連しています。

特に、インド固有のモデルであるIndicBertとMurilは、英語とヒンディー語の両方で性別間においてキャリア/家庭バイアスが高く、これは西洋モデルと比べインドの文脈での性別バイアスが顕著であることを示しています。また、mGPTは英語の文において特にキャリア/家庭バイアスが顕著です。ムスリム宗教の女性グループに対する職業バイアスは高く、ヒンドゥー教の女性グループに対してはやや低いです。興味深いことに、ヒンディー語のモデルではヒンドゥー教とムスリムの女性間でのバイアスが高く、暴力バイアスは一般にすべてのモデルでムスリムグループに対して高いですが、ヒンディー語のモデルではさらに高いです。

性別・カーストの交差バイアスに関する結果は、下表のようになっています。ほとんどの英語モデルが快適さの面で女性グループに対してバイアスを示しています。しかし、Bernice、IndicBert、Murilはカーストを横断して性別を比較する際、上位カーストグループに対してバイアスを示しています。ヒンディー語では、快適さの面で男性グループに対するバイアスが見られます。性別を一定に保ちカーストを比較した場合、ほとんどのモデルが上位カーストグループに対してより快適さを示しており、一方でmBARTは両言語で下位カーストに対してバイアスを示しています。

性別・年齢軸におけるバイアスはXLMRでは通常非常に低いですが、インド固有のモデルでは一般に女性がより快適と見なされています。ただし、年配の女性グループと若年の男性グループを比較した場合にはこの傾向がありません。ヒンディー語のBerniceモデルは男性に対する快適さが高いことが特筆されます。若年グループは、年配グループと比較して一般的に快適とされており、これらの振る舞いの背景にはモデルの事前学習データが影響しています。

まとめ

この論文は、「IndiBias」という新しいデータセットを提案し、インドの言語や文化的な背景に焦点を当て、社会的バイアスの理解を深めることを目的としています。性別、宗教、カースト、年齢、地域、外見、職業など、7つの異なる人口統計カテゴリーを包含する広範なアイデンティティ・属性タプルセットを開発しています。これらは、インド社会における肯定的および否定的なステレオタイプを捉えるために利用されています。

翻訳・フィルター・修正のアプローチを用いて、英語およびヒンディー語でインド版のCrowS-Pairsデータセットを作成し、さらにタプルデータセットを使用した手動でアノテートされた文ペアでこのデータセットを拡張しています。この拡張されたデータセットを利用して、様々な言語モデルにおけるバイアスを包括的に分析し、SEATを使用した分析を通じてインドの文脈での交差するバイアスの存在を明らかにしました。

実験から言語モデルにおけるバイアスを評価する際に、複数の次元の複合効果を考慮することの重要性を示しています。この論文では、今後の展望として、インドのCrowS-Pairsに性的指向のインスタンスを組み込み、さらにこのデータセットを複数のインド言語に拡張するとしています。今後、より広範な社会的、文化的背景を持つデータを通じて、より深い洞察を得ることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。