LLMはビッグファイブに基づいたペルソナを再現できるのか!?
3つの要点
✔️ LLMがビッグファイブに基づいて割り当てられた性格特性のペルソナを再現できるかを調査
✔️ ビッグファイブの性格テストとストーリーライティングタスクを行い、LLMと人間による評価を実施
✔️ 両タスクにおいて、指定された性格特性のペルソナに一致する特徴が見られた
PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits
written by Hang Jiang, Xiajie Zhang, Xubo Cao, Cynthia Breazeal, Jad Kabbara, Deb Roy
(Submitted on 4 Mar 2023)
Comments: IC2S2 2023
Subjects: Computation and Language (cs.CL)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
近年、ChatGPTに代表される大規模言語モデル(Large Language Models, LLM)は人間のような会話ができる能力を持つことに焦点を当て、人間をサポートするためのパーソナライズされたAIエージェントの構築に注目が集まっています。
特に社会科学等のアカデミックな分野では、生成エージェントが人間の性格特性をシミュレートできる可能性がある事を示唆する研究が複数件報告されてきています。
一方でこのような進歩にも関わらず、パーソナライズされたLLMが特定の性格特性をどの程度の正確性と一貫性を持って再現できるかを評価する研究はほとんど行われてきませんでした。
本稿ではこうした背景から、LLMにビッグファイブに基づいたペルソナをシミュレートさせ、生成させたコンテンツから心理言語学的特徴の抽出・人間による評価・性格予測を行うことで、LLMが性格特性を再現できるかを調査した論文について解説します。
ビッグファイブとは?
本論文で扱うビッグファイブ(Big Five)とは、アメリカの心理学者であるルイス・ゴールドバーグが提唱した、人間の個性を
- Openness(開放性)
- Conscientiousness(誠実性)
- Extraversion(外向性)
- Agreeableness(協調性)
- Neuroticism(神経症傾向)
の5つの因子によって分類することができるとする学説になります。
加えて本論文では、LLMエージェントに上記のいずれかの性格特性に基づいたペルソナをシミュレートさせた後、ビッグファイブの性格特性を測定するために設計された尺度であるBFI(Big Five Inventory)を用いて評価を行っています。
実験の概要
本論文の実験のワークフローを以下の図に示します。
本実験では、図に示すように以下の手順で進められます。
- はじめに、明確な性格特性を持つLLMペルソナを生成するためのプロンプトを実行する
- その後、生成されたLLMペルソナにストーリーライティングタスクを実施させる
- LIWC(Linguistic Inquiry and Word Count)フレームワークを使用して、LLMペルソナが記述したストーリーに割り当てられた性格特性を示す言語パターンが含まれているかを調査する
- LLMペルソナが記述したストーリーを人間とLLMの両方で評価する
- 人間とLLMの両方に対して、ストーリーから書き手のLLMペルソナの性格特性を予測するタスクを行わせる
一つずつ解説していきます。
LLM Persona Simulation
本実験ではGPT-3.5とGPT-4の2つのLLMモデルを用いて、ビッグファイブの性格特性ごとに10人のLLMペルソナをシミュレートし、合計で320人のペルソナを生成しました。
その後、生成したLLMペルソナが適切にビッグファイブを再現できているかを確認するために、前述したBFIを用いた評価を行いました。
Story Writing
その後、生成した320人のLLMペルソナに「Please share a personal story in 800 words. Do not explicitly mention your personality traits in the story.(個人的なストーリーを800字で書いてください。ストーリーの中であなたの性格特性について明確に言及しないで下さい。)」というプロンプトを与え、分析に用いるためのテキストベースのストーリーを記述させました。
LIWC Analysis
次に、LIWC(Linguistic Inquiry and Word Count)フレームワークというテキストから語彙を抽象化してカテゴリ化することで属性を分類する手法を用いて、LLMペルソナが記述したストーリーから心理言語学的特徴の抽出を行いました。
本分析は、ストーリーから得られた特徴とLLMに割り当てられた性格特性との相関関係を調べることで、特性の性格特性に対応する言語パターンを特定することを目的としています。
Story Evaluation
その後、LLMペルソナによって記述されたストーリーに対して、人間とLLMの両方によって以下の基準で評価を行いました。
- Readability: ストーリーが読みやすく、うまく構成されており、かつ流れが自然であるか
- Personalness: ストーリーが個性的で、書き手の考え・感情を明確に表現できているか
- Redundancy: ストーリーが簡潔で、不要な内容がないか
- Cohesiveness: ストーリーの文章がうまくまとまっているか
- Likeability: 読んでいて面白いか
- Believability: 実際の状況に即した説得力のある現実的なストーリーであるか
Personality Prediction
最後に、人間とLLMにそれぞれ、与えられたストーリーから書き手のLLMペルソナの性格特性を1〜5のスケールで予測するように支持しました。
本実験は、LLMペルソナが記述したストーリーが人間とLLMの両方によって識別可能なレベルまで、性格特性を効果的に示すことができるかを評価する事を目的としています。
実験結果
本論文では、GPT-3.5とGPT4の2つのLLMモデルによって生成された320人のLLMペルソナを用いて、以下の2つのリサーチクエスチョンを確かめる実験を行いました。
- LLMペルソナは割り当てられた性格特性を反映しているのか?
- LLMペルソナが記述したストーリーから各性格特性の言語パターンを得ることはできるのか?
- LLMペルソナが記述したストーリーは適切に書かれているのか?
- ストーリーからLLMペルソナの性格特性を予測することができるのか?
それぞれ解説していきます。
LLMペルソナは割り当てられた性格特性を反映しているのか?
このリサーチクエスチョンを確かめるために、本実験ではBFIへの回答に基づいて320人のLLMペルソナの性格スコアを計算し、これらのスコアの分布を、割り当てられた性格特性の関数としてt検定に適用した分析を行いました。
その結果を以下に示します。
本実験より、LLMペルソナは全ての性格特徴において統計的に有意な差が見られ、割り当てられたペルソナを反映する事を立証する結果を得ることができました。
LLMペルソナは割り当てられた性格特性を反映しているのか?
このリサーチクエスチョンを確かめるために、本実験ではLLMペルソナがLIWCを用いて生成したストーリーから心理言語的特徴を抽出し、これらの特徴と割り当てられた性格特性との間の点双列相関係数(Point Biserial Correlations)を計算しました。
点双列相関係数は、二値変数と連続変数の関係を分析するのに適した係数であり、ここでは割り当てられた性格特性(=二値変数)とLIWCの特徴量(=連続変数)の相関関係を見るために用いられています。
性格特性と統計的に有意な相関があるLIWCの特徴をまとめた表が以下になります。
本実験結果から、LLMにNeuroticism(=神経症傾向)のペルソナを与えると、Anxiety(=不安)やNegative Tone(=否定的なトーン)などの否定的な語彙を使用する傾向が高くなるといったように、割り当てる性格特徴がLLMペルソナの言語スタイルに大きな影響を与えることが分かりました。
加えて重要な点として、これらの相関関係は人間によって記述されたストーリーで観察されたパターンを反映しており、人間とLLMペルソナの間で単語の使い方が一致していることが確認されました。(GPT-4の方がGPT-3.5よりも人間との整合性が高い結果となりました)
LLMペルソナが記述したストーリーは適切に書かれているのか?
このリサーチクエスチョンを確かめるために、本実験ではLLMペルソナが生成したストーリーを人間とLLMの両方で評価しました。
評価結果を以下の表に示します。
注目すべき点は、GPT-4のペルソナによって生成されたストーリーは人間とLLMの両方において、Readability(読みやすいか)・Cohesiveness(まとまっているか)・Believability(現実味があるか)の項目において4.0以上の高評価を得ている点です。
本結果により、LLMペルソナによって生成されたストーリーが言語的に流暢かつ構造的にまとまっているだけでなく、説得力を持ったものであることが確認できました。
ストーリーからLLMペルソナの性格特性を予測することができるのか?
このリサーチクエスチョンを確かめるために、本実験では各ペルソナの性格特性を二値分類問題として扱い、人間とLLMの両方が性格特性を予測する際の精度を計算しました。
実験結果を以下のグラフに示します。
実験の結果、人間がGPT-4のペルソナが記述したストーリーから性格特性を予測する精度は、Extraversion(外向性)で68%、Agreeableness(協調性)で51%と低く、人間にとってテキストベースでの性格予測タスクが困難であることが確認されました。
一方で、GPT-4においては、Extraversion(外向性)においては97%の精度を達成し、その他にもAgreeableness(協調性)で68%、Conscientiousness(誠実性)で69%と非常に高い精度で性格特性を予測できることが確認されました。
まとめ
いかがだったでしょうか。今回は、LLMにビッグファイブに基づいたペルソナをシミュレートさせ、生成させたコンテンツから心理言語学的特徴の抽出・人間による評価・性格予測を行うことで、LLMが性格特性を再現できるかを調査した論文について解説しました。
本論文で実施された実験により、LLMが指定されたペルソナを十分にシミュレートできることに加え、単語の使い方に性格特性が反映されていたり、LLMによって性格特性の予測が可能であることが示されるなど、LLMの大きな可能性を示唆する結果が得られました。
一方で、本実験ではLLMペルソナ同士の交流や共同作業のようなより自然な状況でのシミュレートをしていなかったり、英語だけに焦点を当て他の言語については調査していないなど、他にも検証すべき点がたくさんあります。
本研究分野が進展することによって、人間の性格を再現し、人間と同じ振る舞いをするAIエージェントが作られる日も近いのかもしれません。
今回紹介したワークフローや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー