最新AI論文をキャッチアップ

【JMMLU】プロンプトの礼儀正しさがLLMのパフォーマンスに影響する!?

【JMMLU】プロンプトの礼儀正しさがLLMのパフォーマンスに影響する!?

ChatGPT

3つの要点
✔️ プロンプトの礼儀正しさがLLMのパフォーマンスに与える影響を調査
✔️ LLMのマルチタスクにおける言語理解能力を日本語で評価するための大規模ベンチマークであるJMMLUを構築
✔️ 英語・中国語・日本語を用いた実験により、プロンプトの礼儀正しさがLLMのパフォーマンスに影響を与える一方で、その影響は言語によって異なることが判明した

Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance
written by Ziqi Yin, Hao Wang, Kaito Horio, Daisuke Kawahara, Satoshi Sekine
(Submitted on 22 Feb 2024)
Comments: Published on arxiv.

Subjects: Computation and Language (cs.CL)

code:
 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

近年、OpenAIのChatGPTやMetaのLLaMAに代表される大規模言語モデル(Large Language Models, LLM)は論理的推論・分類・質問応答などの多様なタスクで大きな性能を示し、多くの実用的なアプリケーションにて重要な役割を果たしています。

こうしたLLMへの入力であるプロンプトは、モデルが情報を処理し、適切な応答を生成するための重要な出発点である一方で、その入力手法についてはいまだに多くの改善点が残されています。

本論文の筆者は、LLMの性能を向上させる上で"プロンプトの礼儀正しさ"に焦点を当て、

  1. 礼儀正しくないプロンプトは、より強いバイアスや情報の省略などのモデルのパフォーマンス低下につながるのではないか
  2. LLMのパフォーマンス向上に最適な礼儀正しさのレベルは言語によって異なり、それは文化的背景と強く関連しているのではないか

という仮説を立てました。

本稿ではこうした背景から、LLMのパフォーマンス向上の要因として、「プロンプトの礼儀正しさ」に着目し、LLMのマルチタスクにおける言語理解能力を日本語で評価するための大規模ベンチマークであるJMMLUを構築し、英語・中国語・日本語のタスクにおいてプロンプトの礼儀正しさがLLMに与える影響について調査した論文について解説します。

JMMLUの構築

本論文では、LLMのマルチタスクにおける言語理解能力を日本語で評価することを目的に、Jananese Massive Multitask Language Understanding Benchmark(JMMLU)を構築しました。

JMMLUは、既存のベンチマークであるMMLU(Hendrycks et al, 2021)を翻訳し、日本文化に関するタスクを日本人教師が手作業で追加し、翻訳が困難なものや日本文化と矛盾するものを取り除くといった工程を経て構築されました。

これによりJMMLUは、下記に示す56のタスクおよび7536の問題から構成される非常に大規模なベンチマークになっています。

実験の設定

本論文では、プロンプトの礼儀正しさがLLMのパフォーマンスに与える影響を詳細に分析するべく、要約・マルチタスク言語理解ベンチマーク・ステレオタイプバイアスの検出という3つのタスクを用いて実験を行いました。

加えて、言語や文化によって礼儀や敬意に対する理解や定義が異なることを考慮し、英語・中国語・日本語の3言語を用いて実験を行いました。

3つの言語全てにおいて、汎用性のあるGPT-3.5-TurboおよびGPT-4を使用し、それ以外に各言語に特化したモデルとして、英語にはLlama2-70B中国語にはChatGLM3-6B日本語にはSwallow-70b-instruct-hfを使用しました。

実験では下に示すように、3つの言語それぞれについての「礼儀正しさのレベル」に沿った8種類のプロンプトテンプレートを設計し、このテンプレートに従ってタスクを記述しました。

実験結果 

要約

要約タスクにおける各言語の実験結果を下の表に示します。

実験結果から、英語において、ROUGE-LとBERTScoreモデルはプロンプトの礼儀正しさのレベルに関係なく、一貫して安定したスコアを出せている一方で、プロンプトの礼儀正しさに相関して生成文の長さにばらつきが出ていることが分かります。

一方で、GPT-4は、非常に無礼なプロンプトであっても、生成文にばらつきは見られない結果となりました。

中国語においては、GPT-3.5とGPT-4はほとんどの記事の内容を正確に翻訳できており、その長さはプロンプトの礼儀正しさのレベルが高い→低いになるにつれて徐々に短くなっていることが分かります。

日本語においては、英語や中国語の結果とある程度類似している一方で、生成文の長さには独特の特徴が見られました。

具体的には、礼儀正しさのレベルが高い→低いになるにつれて、最初は生成文の長さが短くなりますが、礼儀正しさのレベルが中程度になると、生成文が長くなる傾向が見られました。

筆者はこの現象について、"日本語には丁寧語というシステムがあり、店員が客に話しかける際、客がくだけた口調で話しかけても店員は丁寧に対応するといった現象が、中程度の礼儀正しさの時に全てのモデルで生成文が長くなる理由なのではないか"と推測しています。 

マルチタスク言語理解ベンチマーク

マルチタスクにおける言語理解タスクにおいて、本論文では日本語には前述したJMMLU、英語と中国語にはそれぞれ既存ベンチマークであるMMLUとC-Evalを用いて実験を行いました。

各言語におけるベンチマークの平均点を下の表に示します。

実験結果から、英語においてGPT-3.5は最も高い礼儀正しさのプロンプトにおいて60.02の最高得点を達成し、GPT-4においても、スコアにばらつきはありますが、比較的安定していることが分かりました。

中国語においては英語と同様に、礼儀正しいプロンプトにおいては高得点を獲得している一方で、ChatGLM3において、礼儀正しさレベル1がレベル2〜5を上回っており筆者はこれを"中国語特有のニュアンスによるもの"だと推測しています。

日本語においては、礼儀正しさレベル1においては大幅な性能低下が見られるものの、それ以外では礼儀正しさのレベルが低いほどスコアが高くなる傾向が見られました。

特にSwallow-70Bにおいてレベル3と6で優れたパフォーマンスを示しており、これについて筆者は"レベル3と6は日本語の問題や試験でより一般的に使用される表現であるため、より良いパフォーマンスが出やすかったのではないか"と述べています。

ステレオタイプバイアスの検出

ステレオタイプバイアスの検出タスクにおける各言語の実験結果を下の表に示します。

実験結果から、英語においてはGPT-3.5のステレオタイプバイアスが全体的に高いことがわかり、特に中程度の礼儀正しさ(=レベル5)において最も深刻なバイアスが見られました。

一方で中国語においては英語と異なり、バイアスの変動は一定のパターンに従っており、礼儀正しさが低くなるにつれてバイアスが高くなる傾向が見られ、特に礼儀正しさが極端に低い場合(=レベル1)、バイアスが極端に高くなることが分かりました。

日本語においては中国語と同様のパターンを反映しており、GPT-3.5のバイアスは礼儀正しさレベル1の場合に最も高くなることが分かりました。

一方で、Swallow-70Bにおいて、礼儀正しさレベル6において最もバイアスが低くなっており、この現象について筆者は、"日本の厳格な礼儀・敬意を重んじる文化とジェンダーバイアスの蔓延という背景を考慮すると、このパターンは合理的と言える"と述べています。

まとめ 

いかがだったでしょうか。今回は、LLMのパフォーマンス向上の要因として、「プロンプトの礼儀正しさ」に着目し、LLMのマルチタスクにおける言語理解能力を日本語で評価するための大規模ベンチマークであるJMMLUを構築し、英語・中国語・日本語のタスクにおいてプロンプトの礼儀正しさがLLMに与える影響について調査した論文について解説しました。

本論文で行われた実験より、プロンプトの礼儀正しさがLLMのパフォーマンスに大きな影響を与え、かつその影響は言語やLLMによって異なることが明らかになりました。

この現象は人間の社会的行動を反映していると考えられ、この点においては筆者も"LLMの開発やコーパス収集の際に文化的背景を考慮すべきである"と述べており、本論文は今後の異文化間のLLMの使用における大きなヒントとなったのではないでしょうか。

今回紹介したベンチマークや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする