赶上最新的AI论文

什么是AI-SCHOLAR？

一种整合战略知识的新提示方法--战略思维链（SCoT）应运而生！

一种整合战略知识的新提示方法--战略思维链（SCoT）应运而生！

思维链 03/02/2025

三个要点
✔️ 提出了战略思维链（SCoT）--一种提高 LLM 推理质量的新提示方法
✔️ 在 CoT 中生成中间推理步骤之前整合战略知识，可实现高质量和稳定的输出
✔️ 与多个数据集一起使用实验证明了它的有效性

Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation
written by Yu wang, Shiwan Zhao, Zhihu Wang, Heyuan Huang, Ming Fan, Yubo Zhang, Zhixing Wang, Haijun Wang, Ting Liu
(Submitted on 5 Sep 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence(cs.AI); Computation and Language (cs.CL); Human-Compuiter Interaction(cs.HC)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

思维链（CoT）是提高大型语言模型（LLM）推理能力的一种重要方法，尤其在自然语言领域得到了广泛应用。

另一方面，这种方法对于复杂的推理任务并不有效，因为生成的推理路径质量不稳定，推理性能也不稳定。

在此背景下，本文介绍了一种新方法--"战略思维链"（SCoT），它在生成中间推理步骤之前整合了战略知识，显著提高了 LLM 在复杂推理任务中的性能。

战略知识

虽然 LLM 往往会为同一问题生成多种 CoT 路径，但它们的质量可能差别很大。

例如，在求解数学问题"计算所有整数 s 的和，使得 -26<s<24?种方法是可能的。

使用成对的术语，并将成对的术语相加得出最终答案。
使用等差数列求和公式直接计算最终结果

这两种方法都能有效解决问题，但方法 1 的中间步骤更为复杂，通常产生的输出结果不太稳定，而方法 2 则能产生更高质量和更稳定的输出结果。

像这里的等距序列公式这样从逻辑上引导 LLM 得出预期结果的方法和原理被称为战略知识，在提高 CoT 生成的稳定性方面发挥着非常重要的作用。

战略思维链

本文提出了一种新的基于提示的方法--战略思维链（SCoT），它以战略知识为基础，提高了 LLM 的推理质量。

传统 CoT 与本文提出的 SCoT 方法的比较如下图所示。

传统的协同工作存在推理路径效率低下和依赖外部知识源等问题，导致生成的答案质量参差不齐。

另一方面，SCoT 允许在模型直接生成答案之前先激发战略知识，在单一查询设置中采取两个重要步骤

激发策略：该模型可初步确定解决问题的最有效和最高效的方法之一。
答案生成：应用已确定的战略知识得出最终答案。

这两个步骤的 SCoT 提示模板如下图所示。

上述两个步骤由该提示器执行，与普通 CoT 相比，可以输出更稳定、质量更高的答案。

实验

为了证明 SCoT 的有效性，本文使用以下 LLM 进行了实验

Llama3 系列（Llama3-8B、Llama3-70B、Llama3.1-8B、Llama3.1-70B）
Llama2 系列（Llama2-7B、Llama2-13B、Llama2-70B）
Qwen2 系列（Qwen2-7B、Qwen2-72B）
Mistral-7B
ChatGLM4-9B

此外，还使用了三种提示技术--常规 CoT、自我一致性和后退--作为与 SCoT 进行比较的基线。

共使用了八个数据集，包括需要数学和物理推理技能的 MMLU 和SQAs。

下表列出了所有模型在三个数据集上的实验结果。

实验结果表明，在大多数模型中，SCoT 的性能都有所提高。

特别是在需要空间推理能力的 "物体 "数据集上的表现明显更好，实验结果证明了 SCoT 的有效性。

此外，为了研究模型大小对 SCoT 效果的影响，我们使用三种不同大小的 Llama2 模型进行了实验。

下表列出了三个数据集（MathQA、MHLU 和 CSQA）的实验结果。

从该实验中可以观察到，使用 SCoT，所有大小的 Llama2 模型的精确度都有所提高。

另一方面，随着模型规模的增大，性能收益略有下降，这表明大型模型更有可能更有效地利用战略知识。

自动 SCoT

本文还进行了另一项实验，以评估 SCoT 提示是否可以自动生成。

实验设置包括将 SCoT 概念输入 Qwen2-72B，生成下图所示的提示模板，并研究其与 AQuA 数据集一起使用时的准确性。

结果如下表所示。

可以看出，手动生成的 SCoT 提示的准确率低于 CoT，但高于 CoT。

结果表明，基于 SCoT 自动生成提示模板是可行的。

摘要

结果如何？在本文中，我们介绍了一篇论文，该论文提出了一种新方法--战略思维链（SCoT），它在生成中间推理步骤之前整合了战略知识，并显著提高了 LLM 在复杂推理任务中的性能。

本文提出的 SCoT 是一种解决传统 CoT 推理质量不稳定问题的方法，为大幅提高 LLM 在复杂推理任务中的性能提供了可能。

此外，作者还指出，"未来的研究将侧重于评估其在处理更复杂问题时的有效性"。对未来研究的期望很高。

本文所介绍的提示框架和实验结果的详细信息可参见本文，如有兴趣，请参阅本文。

与本文相关的类别

田中侑李

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。