
一种整合战略知识的新提示方法--战略思维链(SCoT)应运而生!
三个要点
✔️ 提出了战略思维链(SCoT)--一种提高 LLM 推理质量的新提示方法
✔️ 在 CoT 中生成中间推理步骤之前整合战略知识,可实现高质量和稳定的输出
✔️ 与多个数据集一起使用实验证明了它的有效性
Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation
written by Yu wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu
(Submitted on 5 Sep 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence(cs.AI); Computation and Language (cs.CL); Human-Compuiter Interaction(cs.HC)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
思维链(CoT)是提高大型语言模型(LLM)推理能力的一种重要方法,尤其在自然语言领域得到了广泛应用。
另一方面,这种方法对于复杂的推理任务并不有效,因为生成的推理路径质量不稳定,推理性能也不稳定。
在此背景下,本文介绍了一种新方法--"战略思维链"(SCoT),它在生成中间推理步骤之前整合了战略知识,显著提高了 LLM 在复杂推理任务中的性能。
战略知识
虽然 LLM 往往会为同一问题生成多种 CoT 路径,但它们的质量可能差别很大。
例如,在求解数学问题"计算所有整数 s 的和,使得 -26<s<24?种方法是可能的。
- 使用成对的术语,并将成对的术语相加得出最终答案。
- 使用等差数列求和公式直接计算最终结果
这两种方法都能有效解决问题,但方法 1 的中间步骤更为复杂,通常产生的输出结果不太稳定,而方法 2 则能产生更高质量和更稳定的输出结果。
像这里的等距序列公式这样从逻辑上引导 LLM 得出预期结果的方法和原理被称为战略知识,在提高 CoT 生成的稳定性方面发挥着非常重要的作用。
战略思维链
本文提出了一种新的基于提示的方法--战略思维链(SCoT),它以战略知识为基础,提高了 LLM 的推理质量。
传统 CoT 与本文提出的 SCoT 方法的比较如下图所示。
传统的协同工作存在推理路径效率低下和依赖外部知识源等问题,导致生成的答案质量参差不齐。
另一方面,SCoT 允许在模型直接生成答案之前先激发战略知识,在单一查询设置中采取两个重要步骤
- 激发策略:该模型可初步确定解决问题的最有效和最高效的方法之一。
- 答案生成:应用已确定的战略知识得出最终答案。
这两个步骤的 SCoT 提示模板如下图所示。
上述两个步骤由该提示器执行,与普通 CoT 相比,可以输出更稳定、质量更高的答案。
实验
为了证明 SCoT 的有效性,本文使用以下 LLM 进行了实验
- Llama3 系列(Llama3-8B、Llama3-70B、Llama3.1-8B、Llama3.1-70B)
- Llama2 系列(Llama2-7B、Llama2-13B、Llama2-70B)
- Qwen2 系列(Qwen2-7B、Qwen2-72B)
- Mistral-7B
- ChatGLM4-9B
此外,还使用了三种提示技术--常规 CoT、自我一致性和后退--作为与 SCoT 进行比较的基线。
共使用了八个数据集,包括需要数学和物理推理技能的 MMLU 和SQAs。
下表列出了所有模型在三个数据集上的实验结果。
实验结果表明,在大多数模型中,SCoT 的性能都有所提高。
特别是在需要空间推理能力的 "物体 "数据集上的表现明显更好,实验结果证明了 SCoT 的有效性。
此外,为了研究模型大小对 SCoT 效果的影响,我们使用三种不同大小的 Llama2 模型进行了实验。
下表列出了三个数据集(MathQA、MHLU 和 CSQA)的实验结果。
从该实验中可以观察到,使用 SCoT,所有大小的 Llama2 模型的精确度都有所提高。
另一方面,随着模型规模的增大,性能收益略有下降,这表明大型模型更有可能更有效地利用战略知识。
自动 SCoT
本文还进行了另一项实验,以评估 SCoT 提示是否可以自动生成。
实验设置包括将 SCoT 概念输入 Qwen2-72B,生成下图所示的提示模板,并研究其与 AQuA 数据集一起使用时的准确性。
结果如下表所示。
可以看出,手动生成的 SCoT 提示的准确率低于 CoT,但高于 CoT。
结果表明,基于 SCoT 自动生成提示模板是可行的。
摘要
结果如何?在本文中,我们介绍了一篇论文,该论文提出了一种新方法--战略思维链(SCoT),它在生成中间推理步骤之前整合了战略知识,并显著提高了 LLM 在复杂推理任务中的性能。
本文提出的 SCoT 是一种解决传统 CoT 推理质量不稳定问题的方法,为大幅提高 LLM 在复杂推理任务中的性能提供了可能。
此外,作者还指出,"未来的研究将侧重于评估其在处理更复杂问题时的有效性"。对未来研究的期望很高。
本文所介绍的提示框架和实验结果的详细信息可参见本文,如有兴趣,请参阅本文。
与本文相关的类别