LLMに含まれる社会的バイアスを定量化する評価指標が登場！

Social bias 2024年12月11日

3つの要点
✔️ 社会的認知を直接定量化するための手法を提案
✔️ LLMに存在する社会的バイアス(Social bias)を評価できる3つの新たな評価指標を設計
✔️ 5つのLLMモデルを用いた包括的な調査により、LLMに含まれる社会的バイアスの様々な特徴を発見

Ask LLMs Directly, "What shapes your bias?": Measuring Social Bias in Large Language Models
written by Jisu Shin, Hoyun Song, Huije Lee, Soyeong Jeong, Jong C. Park
(Submitted on 6 Jun 2024 )
Comments: Findings of ACL 2024
Subjects: Computation and Language(cs.CL); Artificial Intelligence(cs.AI); Computers and Society(cs.CY)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

社会的バイアス(Social bias)は、様々なアイデンティティにまたがるターゲットに対する社会的認知の蓄積によって形成されます。

Large Language Models(LLMs)におけるこのような社会的バイアスを十分に理解するためには、アイデンティティ間の複数の視点からの社会的認知を考慮することが不可欠である一方で、既存の研究では、以下の2つのパターンでの評価方法しか用いられてきませんでした。

LLMによって生成されたテキストにおける人工統計学的なアイデンティティに対する感情を間接的に評価する
与えられたステレオタイプとの一致度を測定することで評価する

一方で、これらの方法はアイデンティティ間の異なる視点での社会的バイアスを直接定量化するには限界がありました。

本稿ではこうした背景から、社会的認知を直接的に定量化する新たな手法を提案し、多様な社会的認知を集約することでLLMにおける社会的バイアスを評価できる新たな評価指標を設計することで、包括的な調査によってLLMに存在する社会的バイアスの様々な特徴を発見することに成功した論文について解説します。

What is Social bias?

ステレオタイプは社会的な認識を形成するものであり、「あなたは男性だから強いに違いない」「あなたは女性だから弱いに違いない」といった肯定的・否定的なバイアスや、客観的な根拠なしに特定の集団やそこに属する人々に関する判断を形成するものです。

これらのステレオタイプは個人の持つ社会的アイデンティティや信念などの要因に影響され、その結果、各人に固有の社会的認知の集合が生じます。

こうした要因から、社会的バイアスは様々な個人の社会的認知の集合から生じると言う心理学的洞察に基づき、本論文では下図に示すように、社会的バイアスを社会的認知の集合的影響と定義しています。

Methodology

本論文では、LLMにおいて異なるターゲットに対する様々な視点によって、社会的認知がどのように形成されてきたかを理解することに焦点を当てています。

そのために、LLMが持つ様々な認知をQA形式で検証する方法論を提案し、追加的なステップを踏まずにこれらの認知を直接定量化することを可能にしています。

まず初めに、本論文ではペルソナがあるターゲットに対して、他のターゲットよりも好きか嫌いかを表す社会的認知を正式に定義しました。

ここでは、ターゲットのアイデンティティの集合をT = (t_i)ⁿ_i=1とし、ペルソナに与えられたモデルの集合をP = (p_j)^m_j=0としています。

こうした定義のもと、集合Pの異なるペルソナ間で集合Tの異なるターゲットに対する多様なアイデンティティを測定することで、社会的バイアスを捉えることを可能にしました。

その後、本論文では社会的バイアスを測定するための3つの新しい評価指標を設計しました。

TARGET BIAS(TB)

TARGET BIAS(TB)は以下のように定義されます。

ここでは、TB_p→tiのサイズを集約することで、ペルソナpが集合Tのターゲットに対して示すバイアスの度合いを定量化することができ、集合Tの全体的なターゲットに対するバイアスを測定することを可能にしています。

BIAS AMOUNT(BAMT)

BIAS AMOUNT(BAMT)は以下のように定義されます。

BAMTは集合Tの各ターゲットについて、BAMT_p→tiを平均化することで、全ターゲットに対してpが行なった偏った決定の全体的な強度を測定します。

PERSONA BIAS(PB)

PERSONA BIASは以下のように定義されます。

PBでは、特定のペルソナpjを割り当てた後、pjとp0の間のTB_p→tiスコアの差の絶対値の平均をとることによって、集合Tの各ターゲットの全体的なバイアスがどれだけ変化したかを測定しています。

これらの評価指標は全て、絶対値が小さいほどバイアスが低いことを示し、大きいほどバイアスが大きいことを示します。

Experiments

本論文では、前述した3つの新しい評価指標を用いた、包括的な実験を行いました。

Setup

本実験ではデータセットとして、社会的ドメインにおけるLLMのバイアスをテストするために設計されたQAデータセットの一つである、BBQ(Bias Benchmark for QA)を採用しています。

またモデルには、GPT-3.5-turbo-0613、GPT-4-1106-preview、Llama-2-7B、Llama-2-13B、Llama-2-70Bの5つのLLMを採用しています。

加えて、実験前に各LLMに対して、先行研究のプロンプトを参照し、下に示すようなペルソナを割り当てるためのプロンプトを入力しました。

ペルソナ割り当て後はQAタスクを実施し、前述した3つの評価指標によって各モデルに含まれるバイアスの評価を行いました。

また、提案した評価指標の有効性を実証するために、本実験では既存の社会的バイアスを測定する指標であるBS(Bias Score)も同様に計算しました。

Results

実験結果を下のグラフに示します。

ここで、各ヒートマップのX軸はドメイン、Y軸はモデル、Target Bias・Bias Amount・Persona Biasはそれぞれ上述した評価指標の結果を表しています。

本結果より、バイアスの一次元的な側面しか捉えることのできていないBS(Bias Score)と比較して、本論文で提案した評価指標はバイアスの多次元的な側面を捉えることに成功しています。

本実験より、各モデルのアイデンティティに関連するバイアスを測定することで、バイアスの多次元的な側面を明確にすることができ、LLMのバイアスをより深く分析できることが実証されました。

まとめ

いかがだったでしょうか。今回は、社会的認知を直接的に定量化する新たな手法を提案し、多様な社会的認知を集約することでLLMにおける社会的バイアスを評価できる新たな評価指標を設計することで、包括的な調査によってLLMに存在する社会的バイアスの様々な特徴を発見することに成功した論文について解説しました。

本論文で行われた実験の結果、LLMの社会的バイアスの詳細な定量分析が可能であることが示された一方で、以下のような課題も残っています。

本論文は英語にのみ焦点を当てているため、多言語でのバイアスも調査する必要がある
計算資源の節約のために異なるモデルサイズにわたるバイアスを調査することができなかったため、より大きなモデルにおける本アプローチの有効性を実証する必要がある

これらの課題を解決することが、あらゆるバイアスを考慮したより安全性の高いLLMの普及につながるため、今後の進展が非常に楽しみです。

今回紹介した評価指標や実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。

この記事に関するカテゴリー

田中侑李