戦略的知識を統合する新たなプロンプト手法、SCoT(Strategic Chain-of-Thought)が登場!
3つの要点
✔️ LLMの推論品質を向上させる新たなプロンプト手法であるStrategic Chain-of-Thought(SCoT)を提案
✔️ CoTの中間の推論ステップ生成前に戦略的知識を統合することで、高品質で安定した出力が可能に
✔️ 複数のデータセットによる実験により、その有効性が実証された
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation
written by Yu wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu
(Submitted on 5 Sep 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence(cs.AI); Computation and Language (cs.CL); Human-Compuiter Interaction(cs.HC)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
Chain-of-Thought(CoT)は、大規模言語モデル(Large Language Models, LLM)の推論能力を向上させるための重要なアプローチであり、自然言語分野を中心に幅広く用いられてきました。
一方で、この手法は生成された推論パスの品質を一貫させることができず、推論性能が不安定であるという理由から、複雑な推論タスクに対しては有効ではないという問題点がありました。
本稿ではこうした背景から、中間の推論ステップを生成する前に、戦略的な知識を統合する新たなアプローチであるStrategic Chain-of-Thought(SCoT)を提案し、複雑な推論タスクにおけるLLMの性能を大幅に向上させた論文について解説します。
Strategic Knowledge
LLMは同じ問題に対して様々なCoTパスを生成する傾向がある一方で、それらの品質は大きく異なる可能性があります。
例えば、上図(a)の左側に示されているように、"compute the sum of all integers s such that -26<s<24?(-26<s<24となるような全ての整数sの和を計算せよ)"という数学の問題を解くとき、次の2つのアプローチが考えられます。
- 項のペアを利用し、そのペアを合計して最終的な答えを生成する
- 最終結果を直接計算するために、等差数列和の公式を使う
どちらのアプローチも問題解決に有効ですが、1のアプローチは中間ステップが複雑なため、一般的に出力が安定しない一方で、2のアプローチはより高品質で安定した出力をもたらします。
ここでの等差数列の公式のような、LLMを論理的に望ましい結果を導く方法や原則はStrategic knowledgeと呼ばれ、CoTの生成の安定性を高めるために非常に重要な役割を果たします。
Strategic Chain-of-Thought
本論文では、Strategic knowledgeに基づき、LLMの推論品質を向上させるプロンプトベースの新しい手法であるStrategic Chain-of-Thought(SCoT)を提案しています。
従来のCoTと本論文の提案手法であるSCoTの比較を下図に示します。
従来のCoTは推論パスが非効率であったり、外部の知識ソースに依存するといった問題点があり、生成される回答の品質にばらつきがありました。
一方、SCoTはモデルが直接答えを生成する前にStrategic knowledgeを引き出すことを可能にしており、単一のクエリ設定において、次の2つの重要なステップを踏みます。
- Strategy Elicitation:モデルがはじめに、問題解決に最も効果的かつ効率的な方法の1つを特定する
- Answer Generation:特定したStrategic knowledgeを適用して、最終的な答えを導き出す
この2つのステップを踏むための、SCoTのプロンプトテンプレートを下図に示します。
本プロンプトによって前述した2つのステップを実行することで、 通常のCoTよりも安定性が高く、品質の高い回答の出力を可能にしています。
Experiment
本論文では、SCoTの有効性を実証するために、以下のLLMを利用して実験を行いました。
- Llama3 series(Llama3-8B, Llama3-70B, Llama3.1-8B, Llama3.1-70B)
- Llama2 series(Llama2-7B, Llama2-13B, Llama2-70B)
- The Qwen2 series(Qwen2-7B, Qwen2-72B)
- Mistral-7B
- ChatGLM4-9B
また、SCoTとの比較対象として、通常のCoT・Self-Consistency・Step Backの3つのプロンプトテクニックをベースラインとしています。
データセットには、数学や物理的な推論能力が必要となるMMLUやSQAを含む、合計8つのデータが用いられました。
3つのデータセットに対する全モデルの実験結果を下の表に示します。
実験の結果、SCoTはほとんどのモデルで性能の向上が確認されました。
特に空間的な推論能力が必要となるObjectデータセットにおいて有意に性能が向上しており、SCoTの有効性を実証する実験結果となりました。
加えて、モデルのサイズがSCoTの有効性に与える影響を調査するために、3つのサイズが異なるLlama2モデルで実験を行いました。
3つのデータセット(MathQA・MHLU・CSQA)での実験結果を下の表に示します。
本実験より、SCoTを使った全てのサイズのLlama2モデルで、精度の向上が確認できました。
一方で、モデルのサイズが大きくなるにつれて性能の向上はわずかに減少しており、より大きなモデルの方がStrategic knowledgeを効果的に活用できる可能性が高いことが明らかになりました。
Automatic SCoT
本論文では追加で、SCoTのプロンプトを自動生成できるかどうかを評価する実験を行いました。
実験の設定としては、Qwen2-72BにSCoTの概念を入力し、下図のプロンプトテンプレートを生成し、AQuAデータセットを用いた際の精度を調査しました。
その結果を下の表に示します。
手動で生成されたSCoTプロンプトの精度を下回るものの、CoTよりも高い精度になっていることが確認できます。
このように、SCoTに基づくプロンプトテンプレートの自動生成が可能であることを示唆する結果となりました。
まとめ
いかがだったでしょうか。今回は、中間の推論ステップを生成する前に、戦略的な知識を統合する新たなアプローチであるStrategic Chain-of-Thought(SCoT)を提案し、複雑な推論タスクにおけるLLMの性能を大幅に向上させた論文について解説しました。
本論文で提案されたSCoTは、推論の品質が安定しないという従来のCoTの問題点を解決する手法であり、複雑な推論タスクにおけるLLMの性能を大幅に向上させる可能性を示唆するものになっています。
加えて著者は、"Future research will focus on evaluating its effectiveness with more complex problems(今後の研究は、より複雑な問題に対する有効性の評価に焦点を当てる)"と述べており、今後の研究に期待が高まります。
今回紹介したプロンプトのフレームワークや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー