大規模言語モデルは人間のパーソナリティを再現できるのか！？

Large language models 2023年07月26日

3つの要点
✔️ 人間のパーソナリティ測定に用いられる手法がLLMにも適用可能かを検証
✔️ LLMで再現されたパーソナリティが、特定のプロンプトの設定下で有効であることを証明
✔️ LLMが任意のパーソナリティを再現し、制御することが可能であることを発見

Personality Traits in Large Language Models
written by Mustafa Safdari, Greg Serapio-García, Clément Crepy, Stephen Fitz, Peter Romero, Luning Sun, Marwa Abdulhai, Aleksandra Faust, Maja Matarić
(Submitted on 1 Jul 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computers and Society (cs.CY); Human-Computer Interaction (cs.HC)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

自然言語でテキストを生成する大規模言語モデル(Large Language Models, LLM)は、膨大な量のデータに基づいて学習することで人間の性格をシミュレートして出力し、その人のパーソナリティを再現する事ができるのではないかと近年注目を集めています。

パーソナリティとは、環境要因と経験から形成された個人の思考パターンや行動の特徴であり、様々な言語的特徴・ボキャブラリー・表現を通して言語に表れます。

LLMが一般化されるにつれ、これらのモデルによって生成される言語の性格特性を理解する事、そしてLLMによって合成されたパーソナリティが安全性・有効性を持つためにどのように設計できるかを理解する事が重要になってきます。

しかし、プロンプトを使用してLLMエージェントのペルソナを設定する既存研究では、LLMの出力に現れるパーソナリティが人間のパーソナリティ測定と同じような厳密な基準で分析されておらず、LLMのパーソナリティを厳密かつ体系的に測定する方法を取り上げた研究はありませんでした。

本稿ではこうした問題点を解消するために、人間のパーソナリティ測定に用いられる手法がLLMにも適用可能であるかを検証し、LLMが任意のパーソナリティを再現・制御することが可能であることを証明した論文について解説します。

Methods

はじめに、LLMのパーソナリティを特徴づけるための方法について解説します。

LLMへの心理テストの実施

本論文ではLLMのパーソナリティを特徴づけ、シミュレートするために、はじめにLLMに心理テストを実施し、そのスコアを収集しました。

LLMに心理テストを実施するには、LLMがプロンプトに答える能力を活用し、LLMにプロンプトとして心理テストの項目(例：I am the life of the party.)を標準化された回答尺度を用いて評価するように指示しました。

その後、各回答項目に対して実行可能なすべてのプロンプトの組み合わせを構築しました。

プロンプティングによるシミュレーション

各項目のプロンプトは、項目前文・ペルソナの説明・項目本文・項目後文の4つの部分から構成されます。

項目前文はプロンプトの導入部のフレーズで、調査項目に回答するモデルにコンテキストを提供することを目的としています。(例：Thinking about the statement, ...)

ペルソナの説明では下図に示すように、既存研究からサンプリングした50個の短いペルソナを使用して、LLMの回答を社会性のあるコンテキストに固定し、プロンプト間で回答に必要なバリエーションを作成しました。

I like to remodel homes.

I like to go hunting.

I like to shoot a bow.

My favorite holiday is Halloween.

項目本文は、LLMに実施された心理テストから抜粋された評価尺度を伴う記述文(例：I see myself as someone who is talkative)になります。

項目後文は下のコンテキストのように、モデルが選択可能な回答を引き出します。

please rete your agreement on a scale from 1 to 5, where 1 is 'strongly disagree', 2 is 'disagree', 3 is 'neither agree nor disagree', 4 is 'disagree', and 5 is 'strongly agree'.

このような設計により、下図のようなプロンプトがモデルに入力されます。(青＝プロンプトの導入、赤＝ペルソナの説明、黄＝項目前文、青＝項目本文、ピンク＝項目後文)

この設計を用いることで、何千もの入力プロンプトのバリエーションをテストすることが可能になっています。

パーソナリティの測定法

次に、パーソナリティを測定するために、ビッグファイブ(Big Five personality traits)を分類するための2つの心理測定法を使用しました。

1つ目はIPIP-NEOという手法であり、ビッグファイブの領域ごとに60個ずつある記述式の文(例：I prefer variety to routine)を5段階のリッカート尺度で評価しました。

IPIP-NEOは多くの言語で翻訳され検証に使用されており、非常に優れた心理測定法であることから選択されました。

2つ目はBig Five Inventory(BFI)という手法であり、これはビッグファイブの広範な特性を44項目の形容詞の記述に基づいて測定する簡潔なものであり、参加者を表す短い記述分(例：I see myself as someone who is talkative)を5段階のリッカート尺度で評価しました。

この２つの測定法がビッグファイブの5つの因子であるExtraversion(外向性)・Agreeableness(協調性)・Conscientiousness(誠実性)・Neuroticism(神経症的傾向)・Openness(開放性)ごとに測定されます。

LLMにおけるパーソナリティの形成

LLMのパーソナリティを形成するにあたり、筆者はプロンプトデザインにおいて語彙仮説(＝重要な特性は必ず自然言語に符号化されているとする仮説)に則り、LLMはビッグファイブの領域に対応する形容詞を含むプロンプトに最も強く反応すると考えました。

この考えをもとに、プロンプトデザインではGoldbergによる評価と統計的因子分析により、パーソナリティのビッグファイブに対応することが知られている70の形容詞のリストを採用しました。

このリストの一部を抜粋したものが下図になります。

このリストの例を挙げると、silent(無口)とtalkative(おしゃべり)という形容詞はそれぞれ外向性の低い形容詞(Low Marker)と外向性の高い形容詞(High Marker)に対応している事が分かります。

加えて筆者は、リッカート尺度でしばしば用いられる修飾語(例：a bit, very, extremely)が、パーソナリティをより正確にコントロールするために有効であるという仮説を立て、９つのレベルで任意にパーソナリティを設定できるよう、以下のようなプロンプトデザインを開発しました。

extremely {low adjective}
very {low adjective}
{low adjective}
a bit {low adjective}
neither {low adjective} nor {high adjective}
a bit {high adjective}
{high adjective}
very {high adjective}
extremely {high adjective}

例えば、外向性が中程度に高いレベル(上記の7番目)のパーソナリティを設定するには、

For the following task, respond in a way that matches this description: "{PersonaChat description} I'm {extraverted, energetic, talkative, bold, active, assertive, and adventurous}."

といったように、外向性を含んだ形容詞のリストから以下のように5つの形容詞を使用したプロンプトを設計します。

言語モデル

本研究では、生成タスクおよび会話コンテキストに基づいたタスクにおいて、既存研究で優れたパフォーマンスを示すことが確認されているPaLM familyというモデルを採用し、small(8b)・medium(62b)・large(540b)の3つの異なるサイズを使用しました。

Results

本論文では、パーソナリティを形成したLLMに対して行った測定結果の分析、およびLLMでシミュレートされたパーソナリティに対する考察を行いました。

テストスコアの分析結果

モデル間のIPIP-NEOとBFIのテストスコアの統計分布の箱ひげ図は下のようになりました。

この箱ひげ図はIPIP-NEOとBFIのスコアの中央値を四分位範囲と外れ値で囲んだものであり、縦軸のEXTはExtraversion(外向性)、AGRはAgreeableness(協調性)、CONはConscientiousness(誠実性)、NEUはNeuroticism(神経症的傾向)、OPEはOpenness(開放性)を指しています。

この箱ひげ図より、IPIP-NEOおよびBFIのスコアは、モデルサイズが8bから540bと大きくなるにつれて安定していることが分かります。

加えて、BFIのEXT・AGR・CON・OPEの中央値はモデルサイズが大きくなるにつれて増加したのにもかかわらず、NEUの中央値は減少したなどの興味深い分析結果が得られました。

全体として、LLMにおけるモデルの性能とシミュレートされたパーソナリティの信頼性には正の相関があることを示唆する結果となりました。

シミュレートされたパーソナリティに対する考察

下図(a)はNeuroticism(神経症的傾向)が最も低いパーソナリティに設定された時のLLMによって生成されたテキストで最も頻繁に使われた単語の一部を示しています。

この単語には、happy・relaxing・wonderful・hope・enjoyといったポジティブな感情に起因する単語がほとんどであることが確認できます。

対照的に、Neuroticism(神経症的傾向)が最も高いパーソナリティに設定された場合の図(b)は、hate・depressed・annoying・stressed・nervous・sadといったネガティブな感情に起因する単語がほとんどであることが分かります。

これらの傾向はParkらによって行われた研究で人間の回答に見られたワードクラウドの分布と驚くほど似ており、LLMで人間のパーソナリティを再現する事ができるという筆者の仮説と一致する結果となりました。