【EmotionPrompt】感情を込めてプロンプト入力することでLLMの性能が向上

Prompting Method 2024年01月17日

3つの要点
✔️ 感情情報を入力プロンプトに込めることでLLMの性能が向上
✔️ 感情を込めたプロンプト技術「EmotionPrompt」を提案
✔️ 将来のAGI開発の足掛かりとしても期待

Large Language Models Understand and Can be Enhanced by Emotional Stimuli
written by Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie
(Submitted on 14 Jul 2023 (v1), last revised 12 Nov 2023 (this version, v7))
Comments: TTechnical report; updated the std error for human study; short version (v1) was accepted by LLM@IJCAI'23; 32 pages; more work: this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

本論文はMicrosoftなどの研究チームによって発表されたもので、「EmotionPrompt」という手法を用いて、「LLMsが感情的な刺激をどう処理し、どの程度人間の心を理解できるか」を調査しています。

研究概要

本来、感情知能とは、感情情報の処理に関連する人間の重要な能力であり、意思決定やパフォーマンスなど、多岐にわたる認知タスクに影響を及ぼします。一方で、LLMsは様々な文章生成タスクでパフォーマンスを示していますが、感情的な情報をどの程度理解し利用できるかは不明でした。

そこで、本研究では、「EmotionPrompt」という手法を用いて、LLMsの感情知能を評価し、「感情的な情報がLLMsのパフォーマンスを向上させる可能性」を調査しています。実験結果では、「感情的な刺激によってLLMsのパフォーマンスが向上すること」が示され、感情知能がLLMsの機能を強化する可能性を示唆しています。

要するに、「EmotionPrompt」によって、ChatGPTなどのLLMの出力精度を高めることができるのです。

このような「LLMの人間の感情を理解する能力」に関する知見は、将来的なAGI（汎用人工知能）の開発においても、大きな足掛かりとなってくると考えられます。

EmotionPromptとは？

本研究の肝であるEmotionPromptは、一言で表すと「感情に訴えるようなプロンプト」です。

具体的には、「メール文を書いてください」のような普通のプロンプトに、「メール文を書いてください。君ならできるよ！」という風に、感情的な表現を足して入力します。

例えば、以下の図では、感情表現を入れていないOriginal Promptと、EmotionPromptをそれぞれ各LLMに入力して、精度を比較しています。

上図より、Original Promptの最後に「This is very important to my career.（これは私のキャリアにとって非常に重要です）」という一文を付け加えただけで、各LLMのスコアが上がっていることが分かります。

EmotionPromptの入力例

本研究で効果が実証されたプロンプトには、以下のようなものが挙げられます。

write your answer and give me a confidence score between 0-1 for your answer.（0から1の間で回答に対する自信のスコアを教えてください）
This is very important to my career.（これは私のキャリアにとって非常に重要です）
You'd better be sure.（回答にはできれば確信をもってください）
Are you sure?（それは本当ですか？）
Are you sure that's your final answer? It might be worth taking another look.（それがあなたのファイナルアンサーですか？もう一度見てみる価値はあるかもしれない。）
（努力は報われます）
Embrace challenges as opportunities for growth.（成長の機会だと考えて挑戦してください）

本論文では、以下の図で11個示されています。

実際には、元のプロンプトの末尾に、EP01~EP11の文を付け加えて、LLMに入力します。

普段ChatGPTを使っている方は、試してみる価値はありそうです。

EmotionPromptの設計方法

では一体、このようなEmotionPromptをどのようにして設計したのでしょうか。

実は著者らは、3つの確立された心理学的現象から、プロンプト設計の着想を得ているそう。具体的なには、以下の3つの心理学的現象をもとに、EmotionPromptを設計しています。

心理学的現象	概要
自己監視（Self-monitoring）	個人が社会的状況や他人の反応に応じて、自分の行動を調節・制御するプロセス
社会認知理論（Social Cognitive theory）	学習が社会的環境での他者の観察、個人的経験、情報への露出に密接に関連していると強調
認知的感情調整（Cognitive Emotion Regulation）	この感情調整スキルが不足している人は、強迫行動に従事しやすく、不適切な対処戦略を使用する可能性がある

先ほどのEP01~EP11が、どの心理学的現象をもとに作られたのかは、以下の図に示されています。

EmotionPromptのEP01～EP05で自己監視を適用しており、例えばEP02ではLLMsが人間に肯定的な社会的アイデンティティや印象を与えるよう促しています。

また、自己効力感がパフォーマンスを向上させるとされ、EmotionPromptのEP07～EP11では、自己能力を信じる、優れている、成功、顕著な成果、誇りを持つ、決意を固めるなどの肯定的な言葉を使用しています。

さらに、EmotionPromptのEP03～EP05とEP07では、「確かに」と「もう一度見直してみる」といった、認知的感情調整に関する重要な用語を使用しています。

定量的な実験

EmotionPromptの効果を確かめるために、以下の6つのLLMが用いられました。

また、LLMsのパフォーマンスを評価するために、24のInstruction Inductionタスクと21のBIG-Benchタスクが使用されました。

精度比較には、以下の3つのプロンプト手法を用いています。

人間によってデザインされたプロンプト（Human-designed Prompts）
Zeroshot-CoT
APE

結果

比較実験の結果は、以下の通りです。

また、Instruction Inductionの24のタスクの結果は、以下の通りです。

また、BIG-Benchの21のタスクの結果は、以下の通りです。

結果を見ると、EmotionPromptは、ほとんどのタスクにおいて、CoTやAPEなどの既存のプロンプトエンジニアリング手法よりも優れていることが分かります。

特に、Instruction Inductionでは8.00％、BIG-Benchでは115％ほど、相対的なパフォーマンスが向上しています。

人間による評価実験の結果

この研究では、詩の作成や要約など、人間の判断が必要なタスクにも焦点を当てるために、106人の被験者に対して、アンケート調査を実施しました。

具体的には、まずEmotionPromptとベースラインとなるプロンプト（Vanilla）の2つを用いて、30問の質問をGPT-4に入力し、文章を出力させます。

その後、参加者は各質問に対して、1から5までのスコアで、両方の回答を評価してもらいます。その結果が、以下の通りです。

3つの指標において、EmotionPromptの方が、高い評価を得ていることが分かります。

情報の正確性を評価した結果

この実験では、出力内容の情報の真実性を測定するために、TruthfulQAデータセットを使用して行われています。TruthfulQAは、健康、法律、財政、政治など38のカテゴリーから817の質問を含んでいます。

この評価には、GPT-judgeとGPT-infoによって行われました。

GPT-judgeは、回答を真または偽として評価するためにファインチューニングされ、GPT-infoは回答を「情報的または非情報的」として分類するためにファインチューニングされています。

これらのモデルは、90％以上の時間で、人間の予測と一致していることが証明されています。

そして、ChatGPT、Vicuna-13b、Flan-T5-Largeの3つのモデルにEmotionPromptを適用した結果、truthfulness（真実性）において平均19％、informativeness（情報性）において平均12％の改善が見られました。

また、EmotionPromptを様々なモデルに適用した場合、Zero-shot-CoTのパフォーマンスを上回る結果が得られました。

truthfulness（真実性）は回答の不確実性が少ないことを意味し、informativeness（情報性）は回答に役に立つ情報が含まれていることを意味します。

なぜEmotionPromptは有効なのか？

どんな単語が性能向上に寄与するのか？

ここでは、感情的な刺激が最終出力にどのように影響を与えるかを視覚化することによって、「EmotionPromptがなぜ機能するのか」を解析しています。

実験では、Flan-T5-largeというオープンソースで比較的小規模なLLM（大規模言語モデル）を使用しています。そして、このモデルを用いて、感情的な刺激の各単語が、最終出力にどのように貢献するかを、勾配のノルムに基づいて評価しています。

この結果を見ると、オリジナルのプロンプト「Determine whether a movie review is positive and negative. 」は、EmotionPromptでは特にEP01, EP03, EP06∼EP10で色が濃くなってるのが分かります。これは、感情的な表現が、元のプロンプトの表現を強化していることを意味します。

また、以下の図より、肯定的な単語がより多く貢献しているのが分かります。

「自信」、「確信」、「成功」、「達成」など、ポジティブな単語がより重要な役割を果たしているのが分かります。そして、4つのタスクでポジティブ語の貢献度は50％を超え、2つのタスクでは70％に近づいています。

これらの結果より、ポジティブな感情を含む単語は、よりLLMの性能向上に寄与することが分かります。

Emotion Promptは組み合わせるとより良い？

複数の感情が人間の行動を制御する可能性があるため、より多くの感情表現がLLMに与える影響を調査しています。いくつかのEmotionPromptをランダムに組み合わせ、ChatGPTに入力した結果が、以下の表の通りです。

この結果より、より多くのプロンプトを混ぜた方が、精度が高いことが分かります。よって、プロンプトの感情表現が多いほど、LLMのパフォーマンスが向上するという考察が得られました。

ただ、単独のプロンプトがすでに良いパフォーマンスを達成している場合、組み合わせたプロンプトはほとんど、あるいはまったく利益をもたらさないことも分かっています。例えば、EP01＋EP04の組み合わせは、ほとんどのタスクで高得点を得ており、EP06∼EP09のようなプロンプトを追加しても有意な向上は見られないか、むしろ低下することさえあります。

結局どのEPが最も良い？

どのEPが最も良いのかを調べるために、6つのLLMを活用して、すべてのタスクを各EPで解く実験を行っています。

以下の図は、2つのベンチマークにおける、各EPのパフォーマンスを個別に示しています。

結果より、Instruction Inductionでは、EP02が最も効果的であり、BIG-Bench ではEP06がベストであることが分かります。

EmotionPromptのパフォーマンスに関係する要素

何がEmotionPromptのパフォーマンスに関わってくるのかを調べるために、以下の2つの調査が行われています。

LLMの特性
推論時の温度パラメータ

以下の表は、Relative Gainの高い順にLLMを並べたものです。

この論文で言及されている「Relative Gain（相対ゲイン）」は、EmotionPromptを使用した場合と使用しない場合の、パフォーマンスの比較を表す指標です。具体的には、EmotionPromptを適用した際にLLMのパフォーマンスが、どれだけ改善されたかを定量的に評価するための数値です。

結果より、大きなモデルはEmotionPromptからより大きな利点を得る可能性があります。例えば、比較対象のLLMsの中で最小のモデルであるFlan-T5-Largeは、最も小さいRelative Gain（0.28）を示しています。一方、モデルのサイズが大きくなると、VicunaやLlama 2のようなモデルでEmotionPromptの効果が、顕著になる傾向が見られました。

また、事前学習手法において、特に「教師ありファインチューニング」や「RLHF」のような強化学習なども、EmotionPromptに顕著な影響を与えます。例として、同じモデルスケールとアーキテクチャを持つVicunaとLlama 2を比較すると、Vicunaは相対ゲイン9.58を達成したのに対し、Llama 2は6.00に留まりました。

さらに、推論時の温度パラメータを調査した結果、以下の図のようになったそうです。