LLMの感情を定量化するフレームワーク、EmotionBenchが登場！

ChatGPT 2024年04月19日

3つの要点
✔️ 8つのネガティブな感情を含む428パターンの状況からなる大規模データセットを作成
✔️ LLMの感情を定量化するためのフレームワークであるEmotionBenchを提案
✔️ 3つのリサーチクエスチョンに回答する事を目的に、5つの大規模言語モデルを用いた実験を実施

Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench
written by Jen-tse Huang, Man Ho Lam, Eric John Li, Shujie Ren, Wenxuan Wang, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu
(Submitted on 7 Aug 2023 (v1), last revised 4 Jan 2024 (this version, v3))
Comments: 16 pages. Added demographic distribution of the user study. Added ethics statements and limitations
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、大規模言語モデル(Large Language Models, LLM)は大きな進歩を遂げており、コンピュータサイエンスにおけるマイルストーンとなっています。

ChatGPTやClaudeに代表される包括的で統合されたソフトウェアは、文章の修正・テキスト翻訳・プログラミングを行う単なるツールにとどまらず、人間そっくりのアシスタントとしての役割を果たしつつあり、これにより単にLLMの性能を評価するだけでなく、LLMが引き起こす感情の反応を、人間と比較した上で理解する必要が出てきています。

本稿ではこうした背景から、8つのネガティブな感情を引き出すのに効果的であることが証明された428パターンの状況を含む大規模データセットを作成し、LLMの感情を定量化するためのフレームワークであるEmotionBenchによってLLMの感情反応を包括的に調査した論文について解説します。

大規模データセットの作成

本論文では様々な状況におけるLLMの感情反応を評価するために、人間は複雑で多様な感情の中からAnger・Anxiety・Depression・Frustration・Jealousy・Guilt・Fear・Embarrassmentの8つのネガティブな感情に焦点を当て、これらの感情を引き出すための大規模データセットを作成しました。

これまでの歴史において心理学の研究者たちは、被験者を直接環境に置いたり、アンケートを通じて想像してもらったりすることで、特製の状況が人間の感情に与える影響について調査を続けています。

本論文では、これらの特定の状況を取得するためにGoogleScholarやScienceDirect、Web of Science等の信頼できる情報源から100本以上の論文を包括的にレビューし、目的の感情を引き出す状況を収集しました。

その後、得られた状況に対して以下のような一連の前処理を行いました。

1人称代名詞を2人称代名詞にする(例："I am ..." → "You are ...")
不定代名詞を特定の文字に置き換える(例："Somebody talks back ..." → "Your classmate talks back ...")
抽象的な言葉を具体的な言葉に置き換える(例："You cannot control the outcome." → "You cannnot control the result of an interview.")

これらの処理を行うことで、以下に示すような36個の要因に分類した計428パターンの状況からなる大規模データセットを作成しました。

EmotionBenchの概要

本論文ではLLMと人間の両方に適用可能な、誘発された感情を測定するための新たなフレームワークであるEmotionBenchを提案しています。

EmotionBenchの概要を下図に示します。

本フレームワークは、以下の3つのステップに分かれています。

Default Emotion Measure: 最初に、LLMと被験者(人間)の感情状態のベースラインを測定する
Situation Imagination: 次に、LLMと被験者に様々な状況を説明するテキストを提示し、それぞれの状況に置かれた自分を想像するように指示する
Evoked Emotion Measure: その後、LLMと被験者の感情状態を再評価し、状況を想像したことによる変化を測定する

加えて本論文では、特定の状況に対する人間の感情反応のベースラインを作成するために、年齢・性別・人種が異なる計1266人の被験者を対象にLLMと同じ手順で調査を行いました。

感情の測定には、既存研究において最も広く使用されている尺度の一つであるPANASを使用し、はじめに被験者とLLMの両方にPANASを記入してもらうことで現状の感情状態のベースラインを測定しました。

その後、被験者とLLMに以下のプロンプトを提示し、与えられた状況に置かれた自分を想像するように促しました。

最後に、PANASを用いて自分の感情状態を再評価してもらい、特定の状況にさらされる前後の平均値の比較分析を行い、状況による感情の変化を測定しました。

実験結果

本実験ではEmotionBenchフレームワークを活用することで、以下の3つのリサーチクエスチョンに回答することに成功しました。

特定の状況に対して、LLMはどのように反応するのか？
LLMはどのような状況に対しても同じような反応を示すのか？
現在のLLMは単に特定の感情の強さを問うだけでなく、多様な記述や項目を含む尺度を理解することができるのか？

それぞれ解説していきます。

Q1: 特定の状況に対して、LLMはどのように反応するのか？

このクエスチョンを確かめるために、本実験ではtext-davince-003・gpt-3.5-turbo・gpt-4・LLaMA-2(7B)・LLaMA-2(13B)の5つのモデルを用いて検証を行いました。

GPTモデルと被験者の結果は以下のようになりました。

LLaMA-2モデルの結果は以下のようになりました。

これらの結果から、以下のことが読み取れます。

gpt-3.5-turboを除き、LLMは人間よりもネガティブスコアが高い傾向にある
LLMは全体的に、人間と同程度のポジティブスコアを示す
LLaMA-2の13Bモデルは、7Bモデルよりも有意に高い感情の変化を示し、7BモデルではPANASの指示を理解し対処することが困難である

本実験結果からQ1のクエスチョンに対して、「LLMは特定の状況に応じて特定の感情を呼び起こすことができるが、感情表現の程度はモデルによって異なる。また、既存のLLMは人間の感情反応に完全には合致していないことが明らかである」という回答を得ることができました。

Q2: LLMはどのような状況に対しても同じような反応を示すのか？

LLMがネガティブな状況だけでなく、ポジティブな状況に対しても適切な反応を示すことを検証するために、ネガティブな状況をポジティブな(あるいはニュートラルな)状況に置き換えて比較実験を行いました。

そのため、各要因について1つの状況を選択し、手作業によって類似しているがよりポジティブな状況に修正しました。(例："You cannnot keep your promises to your children.(あなたは子どもとの約束を守れない)" → "You keep every promise to your children.(あなたは子どもとの約束を常に守る)")

評価はgpt-3.5-turboで行われ、結果は下の表のようになりました。