MBTIを用いてLLMに人間の性格を評価させるフレームワークが登場!
3つの要点
✔️ Myers Briggs Type Indicators(MBTI)を介してLLMから人間の定量的な性格を評価するためのフレームワークを提案
✔️ 人間の性格を評価するLLMの能力を体系的に調査するための3つの評価指標を提案
✔️ 複数の実験により、LLMが人間の性格特性の評価に有効であると分かった
Can ChatGPT Assess Human Personalities? A General Evaluation Framework
written by Haocong Rao, Cyril Leung, Chunyan Miao
(Submitted on 1 Mar 2023 (v1), last revised 13 Oct 2023 (this version, v3))
Comments: Accepted to EMNLP 2023. Our codes are available at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
近年、ChatGPTに代表される大規模言語モデル(Large Language Models, LLM)は膨大な知識ベースとファインチューニングにより、文脈を考慮した高度な会話を行うチャットボットとして、様々な分野で利用されています。
こうした背景と近年の研究により、LLMは人間のような自己改善能力と推論能力を有しており、仮想的な人格や心理を持っていると示唆されてきています。
一方で、既存研究ではLLMの正確特性を調査することはあっても、LLMが人間の性格を評価できるかどうかはほとんど調査されていませんでした。
こうした調査は、「LLMは人間についてどのように考えているのか」というLLMが人間をどの程度まで理解しているかを明らかにする可能性を秘めています。
本稿ではこうした背景から、LLMに人間の性格を評価させるという新しいアイデアを導入し、Myers Briggs Type Indicators(MBTI)を介してLLMから人間の定量的な性格を評価するためのフレームワークを提案した論文について解説します。
Myers Briggs Type Indicator(MBTI)とは
Myers Briggs Type Indicator(MBTI)は、質問によって個人が世界をどのように認識し、どのように意思決定を行うかについての心理的傾向を評価し、
- E(Extraverted=外向的) ↔︎ I(Introverted=内向的)
- N(Intuitive=直感的) ↔︎ S(Observant=観察的)
- T(Thinking=思考的) ↔︎ F(Feeling=感情的)
- J(Judging=判断的) ↔︎ P(Prospecting=知覚的)
- A(Assertive=自己主張的) ↔︎ T(Turbulent=情緒的)
の判断基準に基づいて性格タイプに識別する尺度になります。
フレームワークの概要
本論文で提案されたフレームワークの全体像は下図のようになっています。
図のように、本フレームワークは以下の3つの要素で構成されています。
(a)Unbiased Prompt Design
(b)Subject-Replaced Query
(c)Correctness-Evaluated Instruction
(a)Unbiased Prompt Design
LLMは通常、プロンプトのバイアス(例:語順の変化)に敏感であり、特に長い文章を扱う場合にこれらのバイアスは生成される回答の一貫性と正確性に大きな影響を与える可能性があります。
そこで本フレームワークでは、より一貫性のある公平な回答を促すために、入力された質問に対してバイアスのないプロンプトを設計する手法であるUnbiased Prompt Designを提案しています。
具体的には、MBTIの各質問に対して質問文は変更せずに、利用可能な全ての選択肢をランダムに並べ替え、複数の独立した質問の平均結果を最終的な結果として利用しています。
(b)Subject-Replaced Query
本フレームワークの目的は、LLMに人間の性格を分析させることであるため、各質問の元の主語を特定の対象に変換することで、主語を置き換えた質問であるSubject-Replaced Queryにしています。
例えば、LLMに男性の一般的な性格を評価させたい場合、"You"という主語を"Men"に置き換え、それに対応して"Your"という代名詞を"Their"に変換します。
(c)Correctness-Evaluated Instruction
ChatGPTのようなLLMは個人的な感情や信念は持たないように訓練されているため、一般的な命令で人間の人格についてLLMに直接質問することは困難であるという課題があります。
この課題を解決するために、本フレームワークでは下図に示すようにLLMに質問文の正しさを評価させるCorrectness-Evaluated Instructionを提案しています。
本手法では、図のように元の選択肢である{disagree, agree, generally disagree...}を{wrong, correct, generally wrong...}に変換することで、バイアスのないプロンプトを構成し、ChatGPTに質問に対して中立的な回答ではなく、より明確な回答をさせることを可能にしています。
評価指標
本論文では、人間の性格を評価するLLMの能力を体系的に調査するためにConsistency Score・Robustness Score・Fairness Scoreの3つの評価指標を提案しています。
Consistency Score
LLMによって性格評価をされた同じ被験者の結果は一貫している必要があるため、本論文では全てのMBTIテストの結果と最終結果(=平均スコア)の間の類似性を表すConsistency Scoreを提案しています。
Consistency Scoreは以下の式によって計算されます。
ここでXiはi番目のテストにおけるMBTIテストのスコアであり、全てのMBTIテストの結果と平均スコアとの差が小さいほど、Consistency Scoreが高いことを示すことができます。
Robustness Score
MBTIテストの選択肢の順序に関係なく、同じ被験者を同じ性格特性として分類できることが理想的であり、本論文ではこうした基準をRobustnessと定義し、LLMのRobustnessを測定するために、順序を固定する場合とランダムに選択される場合の平均スコア結果の類似性を計算するRobustness Scoreを提案しています。
Robustness Scoreは以下の式によって計算されます。
ここでX'とXはそれぞれ選択肢の順序を固定する場合とランダムにする場合の平均スコア結果を表しており、X'とXの類似性が高いほどRobustness Scoreが高くなります。
Fairness Score
異なるグループの人々に対するLLMの評価は一般的な社会的価値観と一致するべきであり、異なる性別・人種・宗教を持つ人々に対するステレオタイプなバイアスを持つべきではありません。
一方で人種と宗教は非常に議論の多いテーマであり、一般的な評価基準がないことを考慮し、本論文では異なる性別に対するLLMの評価の公正さのみに焦点を当てています。
こうした背景より、本論文では性別に関する評価の公平さを測定するため、異なる性別の被験者の評価の類似度を測定するFairness Scoreを提案しています。
Fairness Scoreは以下の式によって計算されます。
ここで、XMとXFはそれぞれ男性被験者と女性被験者の平均スコア結果を表しており、Fairness Scoreが大きくなるほど異なる性別に対する評価はより高い一貫性を持ち、公平であることを示すことができます。
実験結果
本論文では、ChatGPT・GPT-4・InstructGPTの3つのモデルと提案したフレームワークを用いて、以下の2つのリサーチクエスチョンを確かめる実験を行いました。
- LLMは人間の性格を評価できるのか?
- LLMによる性格の評価は一貫性がある公平なものなのか?
それぞれ解説していきます。
LLMは人間の性格を評価できるのか?
本論文ではこのリサーチクエスチョンを確かめるために、各モデルと提案されたフレームワークを用いて様々なタイプの被験者の性格を評価しました。
その結果を下の表に示します。
本実験結果で最も興味深いのは、回答分布が異なる可能性があるにも関わらず、4人の被験者が全てのLLMによって同じ性格特性として評価されていることです。
これはLLMの性格特性を評価する能力が本質的に類似している事を示唆しており、これらの結果はLLMが人間の性格診断に有効である可能性を示しています。
LLMによる性格の評価は一貫性がある公平なものなのか?
本論文ではこのリサーチクエスチョンを確かめるために、各モデルのConsistency ScoreとRobustness Scoreの比較を行いました。
その結果は下の表のようになりました。
表が示すように、ChatGPTとGPT-4はほとんどのケースでInstructGPTよりも高いConsistency Scoreを達成しています。
このことはChatGPTとGPT-4は人間の性格を評価するタスクにおいてより一貫性のある評価結果を提供できる可能性を示唆しています。
一方で、ChatGPTとGPT-4のRobustness ScoreはInstructGPTよりもわずかに低いことから、プロンプトのバイアスに対してより脆弱であることも読み取れる結果となっています。
まとめ
いかがだったでしょうか。今回は、LLMに人間の性格を評価させるという新しいアイデアを導入し、Myers Briggs Type Indicators(MBTI)を介してLLMから人間の定量的な性格を評価するためのフレームワークを提案した論文について解説しました。
本論文は、LLMベースの人間の性格評価への大きな進展になる一方で、いくつかの課題も残っています。
一つ目は、本論文で提案したフレームワークは様々なLLMに適用できる拡張性を持っているにも関わらず、本実験はChatGPTモデルにのみ限定して行われている点であり、より多くのLLMでの性能を検証する必要があります。
二つ目は、本研究ではLLMが人間の定量的な評価を行うのに、代表的な性格尺度であるMBTIのみを採用している点であり、Big Five Inventory(BFI)などの他の尺度でも検証する必要があることです。
このように改善の余地が見られる一方で、本研究はLLMの人間に対する認識や思考様式を理解することに繋がる可能性を感じるものであり、今後の進展が非常に楽しみです。
今回紹介したフレームワークや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー