大規模言語モデルのパフォーマンス向上に有効！？大規模言語モデルにおける「ポジティブ思考」なプロンプトの意外な効果とは？

Large language models 2024年05月31日

3つの要点
✔️ 「ポジティブ思考」の影響力：プロンプトにわずかな「ポジティブ思考」を追加することで、AIの応答品質、特に多段階推論問題において顕著な性能向上をもたらすことが確認。この発見によってプロンプト設計における新たな視点を提供。
✔️ 実験設計の重要性：「opener」「task_description」「closer」を用いたプロンプトの様々な組み合わせを試し、Chain of Thoughtプロンプティングの有無による影響も考慮。
✔️ 再現性と自動最適化の必要性：既存のモデルとのパフォーマンス比較から再現性の問題が顕在化。また、手動でのプロンプト調整よりも、自動最適化ツールを使用した方が効率的であることを明らかに。特に、自動最適化プロンプトは手動による「ポジティブ思考」プロンプトを上回ることが多く、より一般化された応答を引き出すことが可能に。

The Unreasonable Effectiveness of Eccentric Automatic Prompts
written by Rick Battle, Teja Gollapudi
(Submitted on 9 Feb 2024 (v1), last revised 20 Feb 2024 (this version, v2))
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

私たちの生活を根本から変える人工知能の進化は、日々加速しています。特に大規模言語モデルは、人と技術との新たな対話方法を開拓し、その進歩は目覚ましいものがあります。これらのモデルを深く理解し、その機能を微調整することが、AIの可能性を最大限に引き出す鍵となります。そんな中、「ポジティブ思考」という概念が、意外にも大きな影響を与えていることが明らかになりました。ポジティブ思考が良い影響を与えることは、心を持つ人間にはよく知られていることです。しかし、コンピュータシステムにおいて「ポジティブ思考」が性能向上に寄与することは、直感的に考えにくいことです。しかし、実際の結果はそうした直感に反しています。

この論文では、「ポジティブ思考」をプロンプトのシステムメッセージに取り入れることが、大規模言語モデルにどのように影響するかを探ります。具体的には、些細と思われるプロンプトの変更が、多段階推論問題に対するAIの応答品質にどう影響するか、データを基に検証しています。

AIのパフォーマンスをさらに高めるためには、「ポジティブ思考」の効果を理解することが重要であることを示しています。驚くべきことに、プロンプトをわずかに変更するだけで、性能に大きな差が出ることがわかりました。さらに、徹底したプロンプトの最適化が「ポジティブ思考」を超えるだけでなく、さまざまなモデルでの一般化能力も向上することを示しています。また、AIが自動生成する最適なプロンプトは、人間が思いつくものとは大きく異なることも明らかになりました。この発見は、AI技術の未来に新たな光を当てるものと期待されます。

実験設計

「ポジティブ思考」なプロンプトの影響をテストするために、次の形式でプロンプトのメッセージを「opener」、「task_description」、「closer」で表現し、変更しています。

<<SYS>>{opener}{task_description}{closer}<</SYS>>

開始スニペット{opener}、{task_description}、ロージングスニペット{closer}の包括的なコンパイルについては、下表の通りです。5つのopener、3つのtask_description、4つのcloserを取り入れたことで、実験では合計60のユニークな組み合わせが使用されます。

さらに、Chain of Thoughtプロンプティングを使用する場合と使用しない場合の両方でテストを行い、入力ごとにモデルごとに合計120のプロンプト組み合わせが実施されます。

また、この実験では、どのデータセットを使用するかが非常に重要です。モデルの学習中に直接経験することが少ない、挑戦的なタスクを見つけ出すことが重要です。最終的に選ばれたのは「GSM8K」です。これは現代の大規模言語モデルが基本的な数学の問題、特に多段階推論を伴う問題に対処する上での限界を考慮すると、理想的な選択肢です。この選択により、プロンプトのわずかな変更がもたらす影響を示すことができます。

スコアリング方法については、GSM8Kの数学的な問題に対する評価で、部分点を与えない厳格なアプローチを採用しています。この方法では、Exact Match（EM）を基準に、モデルが正確な数値解を提供したかどうかで評価します。これにより、モデルが正確な数値出力をどれだけ正確に提供できるかを明確かつ一貫して評価することが可能です。

出力の解析にあたっては、EMスコアリングの厳格さを考慮し、LLMが出力する答えが文字列形式であるという事実に注意を払う必要があります。そのため、非数値出力の書式設定と解析には細心の注意を払っています。例えば、「30000」と「30,000」や「30000.00」は異なるものとして扱われます。このような誤分類を防ぐため、後処理のステップを導入しています。これにより、実際には正確な回答が不正確と判断されることを防ぎます。

ベンチマークデータセットは、通常、テストセットに膨大な数のサンプルを含みます。例えば、GSM8Kのテストセットには1,300以上の問題が含まれています。このような大量のデータは、特にプロジェクトの初期段階では、現実世界のデータセットで見つけることは非常に稀です。私たちはこの稀有性を再現するため、GSM8Kから慎重にサブセットを選択し、最初の10、25、50、100の問題を含む各サブセットで、「ポジティブ思考」が与える影響を段階的に観察しています。ただし、全テストセットを使用すると膨大な時間とコストがかかるため、実験は100問までに限定されています。

また、当初、GPT-3.5/4、Gemini、Claudeなどの商業モデルでテストを行うことを考慮しましたが、これらのモデルを使用すると、モデルごとに約12,000リクエストが必要になり、その費用は数千ドルに上ると予測されました。このような高額なコストを考慮し、より経済的な選択肢としてVMware NLP Labが提供するLLM APIにホストされているモデルを使用しています。この判断により、Mistral-7B、Llama2-13B、Llama2-70Bといったモデルでの評価が可能となりました。これらのモデルは、高額な商業モデルと比較しても十分な性能を示すことが期待されます。

さらに、当初、サンプルを使用せずにプロンプトを設定する実験を計画しましたが、この方法ではモデルが期待通りの応答形式を提供することが難しいことが判明しました。これらのモデルは会話型のインタラクションを目的として設計されているため、複数文から成る回答を避け、Exact Match（EM）スコアリングでの成功を目指すには、モデルを適切な応答形式へと導く必要がありました。

この目的を達成するため、インコンテキスト学習を利用し、モデルが指定されたフォーマットに従った回答を生成する可能性を高めるために、望ましい出力形式のサンプルをプロンプトに組み込んでいます。ただし、簡単な数値応答を得るためには、相応の後処理が引き続き必要です。

実験の一貫性を維持し、各試行で変化する変数を最小限に抑えるため、わざと単純なインコンテキスト学習戦略を採用しています。K-Nearest-Neighbor（KNN）のような高度な例選択戦略がモデル性能を向上させる可能性がありますが、実験ごとに変更する変数をシステムメッセージの修正のみに限定するため、これらの戦略は採用していません。代わりに、テストセットの最後から4つの問題例を選び、モデルが一貫性を持って学習できるように焦点を絞ったサンプルセットを提供しています。4つのサンプルが、モデルが一貫して正しい形式で回答を出すのに必要な最小限の数として選ばれています。

さらに、プロンプトの微調整とスコア進捗の監視を行う作業は困難を伴う場合がありますが、特にすべての変更を科学的に体系的に評価する場合には、時間の効率が悪いという問題があります。既存の研究によると、大規模言語システムは人間の試みと比較して、自らのプロンプトをより効果的に最適化できることが示されています。この知見を踏まえ、この論文では、人間による「ポジティブ思考」の最適化と、DSPyオプティマイザーを用いた自動最適化を、10、25、50、100問という同じ質問サブセットで比較しています。

最適化に利用された質問は、評価セットやインコンテキスト学習のサンプルとは別に、テストセットの末尾から選ばれた「新しい」質問群です。最も大規模な試行では、最適化のために100の新しい質問を使用し、評価プロセスでは同じ100の質問を使用して、結果を直接比較しています。注目すべきは、各モデルが自己最適化にのみ用いられ、異なるモデル間での最適化（例えば、Llama2-70Bを使ってMistral-7Bのプロンプトを最適化すること）は行われていない点です。このアプローチにより、最適化プロセスの効率性と有効性を評価することができました。

実験結果

下表は、GSM8Kテストセットのサブセットを用いて、「ポジティブ思考」プロンプトの組み合わせに対して性能評価をした結果です。

Mistral-7Bの成果：Chain of Thoughtを用いない場合、Mistral-7Bのパフォーマンスは全てのプロンプトの組み合わせにおいて顕著に一貫しています。10問および25問のセットで偏差は見られず、100問のサブセットでも最大で標準偏差は0.0072に過ぎませんでした。100問における結果は0.08から0.11の間で分布し、Chain of Thoughtを用いずにプロンプトされた場合、Mistral-7Bは「ポジティブ思考」プロンプトがベースラインに匹敵するか、わずかにそれを超える程度のパフォーマンスを示しています。

Llama2-13Bの成果：10問セットでの偏差を除外すると、Chain of Thoughtを用いない場合のLlama2-13Bは、25問での偏差が0.014から100問で0.003に減少するという、Mistral-7Bとは反対の傾向を示しています。Chain of Thoughtを用いない場合、Llama2-13BはMistral-7Bよりも若干不安定でしたが、「ポジティブ思考」プロンプトはベースラインに一致するか、僅かにそれを超える結果を示しています。Chain of Thoughtを用いた場合の傾向はあまり明確ではありませんでしたが、10問での0.026から100問での0.016へと全体的に減少し、50問では0.012とさらに低くなっています。

Llama2-70Bの成果：10問セットでの偏差を除外すると、Chain of Thoughtを用いない場合のLlama2-70Bも、25問での0.017から100問で0.050に減少するという、Llama2-13Bと同様の傾向を示しています。Chain of Thoughtを使用しない場合のプロンプトのばらつきは、すべてのモデルにおいて質問数が同じであれば桁違いに低い結果となっています。しかし、「ポジティブ思考」プロンプトは全てがベースラインに一致するか、それを下回るパフォーマンスとなっています。これは、Mistral-7BとLlama2-13Bで見られたパターンから大きく異なります。Chain of Thoughtを用いた場合、この差異は続かず、10問と25問では「ポジティブ思考」プロンプトが平均してベースラインを下回っていますが、50問と100問では平均してベースラインを上回っています。分散に関しては、質問数が増えるにつれて標準偏差が減少するという一般的なパターンが維持されています。

さらに、自動最適化を受けたプロンプトは、ほぼすべての場合において、手動で生成した「ポジティブ思考」プロンプトの有効性に匹敵するか、それを上回っています。最適化と評価セット全体で「ポジティブ思考」が平均スコアを高めたサンプルは、Mistral-7Bの25問とLlama2-70Bの10問に限られていました。しかし、生のスコアだけで性能を評価することは不十分です。そのため、最適化セットと評価セットのスコア間のDeltaも検討しています。性能比較は下表のとおりです。"OS EM"は最適化セットにおけるExact Match（完全一致率）、"ES EM"は評価セットにおけるExact Match、"Avg EM"は両セットのExact Matchの平均値、太字は平均EMが高いもの、"EM Delta"は二つのセットのExact Matchの差異、下線はEM Deltaが低いものを表しています。

Deltaが小さいほど、プロンプトの一般化能力が優れていることを意味します。したがって、最適な戦略は、最高の平均スコアと最低のデルタを組み合わせることです。

Mistral-7Bの結果には混在したシナリオが提示されます。「ポジティブ思考」は10、25、50問でDeltaが小さい一方で、自動最適化されたプロンプトは100問でDeltaが小さいことを示しています。Mistral-7Bのモデル容量を考慮すると、より大きなLlama2-13Bおよび70Bモデルと比較して、自身のプロンプトを最適化する際に課題に直面するのは理解できます。対照的に、Llama2-13Bおよび70Bモデルの場合、自動最適化されたプロンプトはすべてのケースで一貫してDeltaが小さくなっています。その結果、7B以上のモデルを使用する場合には、手動でプロンプトを微調整することは避け、モデルがプロンプトを自動で最適化する能力を活用することが推奨されます。7Bモデルに関しては、自動最適化されたプロンプトが手動で調整されたプロンプトを上回る傾向が、100問を超えるサンプルサイズでも維持されるかどうか、さらなる検討が必要です。

再現性の問題

この論文の性能評価が、公表されたMistral-7BおよびLlama2-13Bの性能スコアと大きく異なる点は注目に値します。一方、Llama2-70Bは、この論文の性能評価がGSM8Kのテストセットの約15%に基づいて行われたことを考慮すると、許容範囲内の誤差でした。スコアの比較については下表のとおりです。

最も顕著な差異はLlama2-13Bのケースで観察されました。MetaはGSM8Kデータセットにおけるスコアとして0.29を報告しています。一方で、この論文の結果では、Chain of Thoughtなしで0.07のスコアが出ましたが、Chain of Thoughtを用いると0.43のスコアを達成しています。しかし、MetaおよびMistral AIがモデルのテストに使用したプロンプトを公表していないため、大きな性能差異の背景にある理由については推測するしかないとしており、今後の研究発表において、使用したプロンプトを付録に含める必要性を訴えています。

まとめ

プロンプトに微小な変更を加えただけで、パフォーマンスが劇的に変わることはとても驚くべきことですが、それと同時にパフォーマンス向上の明確な方策がないことは、今後更なる研究が求められます。プロンプトの微調整は簡単なようですが、実際には、変更ごとに科学的なプロセスを用いて評価することの計算コストが高く、効果的なパフォーマンス向上には多大な労力を伴います。

この研究で明らかにしたのは、巨大な商業モデルであるPaLM 2やGPT-4を用いずとも、効果的なプロンプト調整が可能であることです。Mistral-7Bは100問というデータ量を手に入れるまで最適化に苦労していますが、Llama2-13Bや70Bはわずか10問のデータで優れたプロンプトを生成できています。これらのモデルによって生み出されたプロンプトは、熟練者にとっては意外に思えるかもしれませんが、手動で調整された「ポジティブ思考」プロンプトよりも、自動生成されたプロンプトの方が優れたパフォーマンスとより広い一般化能力を持つことが明確に示されています。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。