赶上最新的AI论文

一种整合战略知识的新提示方法--战略思维链(SCoT)应运而生!

一种整合战略知识的新提示方法--战略思维链(SCoT)应运而生!

思维链

三个要点
✔️ 提出了战略思维链(SCoT)--一种提高 LLM 推理质量的新提示方法
✔️ 在 CoT 中生成中间推理步骤之前整合战略知识,可实现高质量和稳定的输出
✔️ 与多个数据集一起使用实验证明了它的有效性

Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation
written by Yu wangShiwan ZhaoZhihu WangHeyuan HuangMing FanYubo ZhangZhixing WangHaijun WangTing Liu
(Submitted on 5 Sep 2024)
Comments: 
Published on arxiv.

Subjects: Artificial Intelligence(cs.AI); Computation and Language (cs.CL); Human-Compuiter Interaction(cs.HC)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

思维链(CoT)是提高大型语言模型(LLM)推理能力的一种重要方法,尤其在自然语言领域得到了广泛应用。

另一方面,这种方法对于复杂的推理任务并不有效,因为生成的推理路径质量不稳定,推理性能也不稳定。

在此背景下,本文介绍了一种新方法--"战略思维链"(SCoT),它在生成中间推理步骤之前整合了战略知识,显著提高了 LLM 在复杂推理任务中的性能。

战略知识

虽然 LLM 往往会为同一问题生成多种 CoT 路径,但它们的质量可能差别很大。

例如,在求解数学问题"计算所有整数 s 的和,使得 -26<s<24?种方法是可能的。

  1. 使用成对的术语,并将成对的术语相加得出最终答案。
  2. 使用等差数列求和公式直接计算最终结果

这两种方法都能有效解决问题,但方法 1 的中间步骤更为复杂,通常产生的输出结果不太稳定,而方法 2 则能产生更高质量和更稳定的输出结果。

这里的等距序列公式这样从逻辑上引导 LLM 得出预期结果的方法和原理被称为战略知识,在提高 CoT 生成的稳定性方面发挥着非常重要的作用。

战略思维链

本文提出了一种新的基于提示的方法--战略思维链(SCoT),它以战略知识为基础,提高了 LLM 的推理质量。

传统 CoT 与本文提出的 SCoT 方法的比较如下图所示。

传统的协同工作存在推理路径效率低下和依赖外部知识源等问题,导致生成的答案质量参差不齐。

另一方面,SCoT 允许在模型直接生成答案之前先激发战略知识,在单一查询设置中采取两个重要步骤

  1. 激发策略:该模型可初步确定解决问题的最有效和最高效的方法之一。
  2. 答案生成应用已确定的战略知识得出最终答案。

这两个步骤的 SCoT 提示模板如下图所示。

上述两个步骤由该提示器执行,与普通 CoT 相比,可以输出更稳定、质量更高的答案。

实验

为了证明 SCoT 的有效性,本文使用以下 LLM 进行了实验

  • Llama3 系列(Llama3-8B、Llama3-70B、Llama3.1-8B、Llama3.1-70B)
  • Llama2 系列(Llama2-7B、Llama2-13B、Llama2-70B)
  • Qwen2 系列(Qwen2-7B、Qwen2-72B)
  • Mistral-7B
  • ChatGLM4-9B

此外,还使用了三种提示技术--常规 CoT、自我一致性和后退--作为与 SCoT 进行比较的基线。

共使用了八个数据集,包括需要数学和物理推理技能的 MMLU 和SQAs

下表列出了所有模型在三个数据集上的实验结果。

实验结果表明,在大多数模型中,SCoT 的性能都有所提高。

特别是在需要空间推理能力的 "物体 "数据集上的表现明显更好,实验结果证明了 SCoT 的有效性。

此外,为了研究模型大小对 SCoT 效果的影响,我们使用三种不同大小的 Llama2 模型进行了实验。

下表列出了三个数据集(MathQA、MHLU 和 CSQA)的实验结果。

从该实验中可以观察到,使用 SCoT,所有大小的 Llama2 模型的精确度都有所提高。

另一方面,随着模型规模的增大,性能收益略有下降,这表明大型模型更有可能更有效地利用战略知识

自动 SCoT

本文还进行了另一项实验,以评估 SCoT 提示是否可以自动生成。

实验设置包括将 SCoT 概念输入 Qwen2-72B,生成下图所示的提示模板,并研究其与 AQuA 数据集一起使用时的准确性。

结果如下表所示。

可以看出,手动生成的 SCoT 提示的准确率低于 CoT,但高于 CoT。

结果表明,基于 SCoT 自动生成提示模板是可行的。

摘要

结果如何?在本文中,我们介绍了一篇论文,该论文提出了一种新方法--战略思维链(SCoT),它在生成中间推理步骤之前整合了战略知识,并显著提高了 LLM 在复杂推理任务中的性能。

本文提出的 SCoT 是一种解决传统 CoT 推理质量不稳定问题的方法,为大幅提高 LLM 在复杂推理任务中的性能提供了可能。

此外,作者还指出,"未来的研究将侧重于评估其在处理更复杂问题时的有效性"。对未来研究的期望很高。

本文所介绍的提示框架和实验结果的详细信息可参见本文,如有兴趣,请参阅本文。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们