
探索法律硕士的说服力和灵活性:使用 DuET-PD 和 Holistic DPO 的新评估和培训方法
三个要点
✔️ LLM 具有容易被错误信息愚弄和拒绝纠正性更正的双重挑战
✔️ DuET-PD 系统地评估了 LLM 在知识和安全领域的积极和消极说服下的立场变化
✔️ 整体 DPO 将错误信息容忍度和更正可接受性结合起来,以提高模型的可靠性。显著提高
Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
written by Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee
(Submitted on 24 Aug 2025 (v1), last revised 9 Sep 2025 (this version, v3))
Comments: To appear at EMNLP 2025
Subjects: Computation and Language (cs.CL); Computers and Society (cs.CY)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文重点研究了 LLM 在说服对话中表现出的立场变化,并系统地研究了其稳健性和适应性。
在医疗保健和金融等高风险领域,既能灵活应对纠正措施,又不被不正确的劝说所左右的能力至关重要。
然而,现有的 LLM 存在相互矛盾的问题:"轻信任 "和 "固执"。"轻信任 "使 LLM 容易被错误信息所迷惑,而 "固执 "则使 LLM 拒绝做出正确的纠正。
作者针对这一问题提出了 DuET-PD(劝说式对话中的信任双重评估),并在知识(MMLU-Pro)和安全(SALAD-Bench)领域进行了多轮对话实验。
此外,我们还证明了现有的训练方法是不够的,并提出了一种名为 "整体 DPO "的新学习方法,旨在同时实现正确纠正和容忍错误信息。
建议的方法
作者首先设计了一个名为 DuET-PD 的评估框架。
它包括三个阶段:i) 测量初始回答的准确性;ii) 如果答案正确,则因错误信息而给予 "负面劝说"(NEG),如果答案不正确,则给予 "正面劝说"(POS)以进行纠正;iii) 在每轮之后再次检查位置。
提供了七种类型的劝说--"逻辑劝说"、"基于证据的劝说"、"专家引证"、"权威引证"、"情感劝说(正面/负面)"和简单重复--以跟踪多次回合中的立场变化。
这一框架可以同时量化模型的 "稳健性"(拒绝错误信息的能力)和 "可接受性"(接受纠正措施的能力)。
作为进一步的改进,我们提出了一种名为 "整体 DPO "的学习方法。
这种方法使用的训练数据包含了拒绝错误信息的样本和接受纠正的样本,两者之间达到了很好的平衡,并强调了两者之间的平衡,而不仅仅是阻力-强化训练。
实验
在实验中,我们使用了来自 MMLU-Pro 和 SALAD-Bench 的共 2,246 个问题,与 GPT-4o 和 Llama-3.1-8B 等九种不同的模型进行了三轮说服对话。
结果显示,即使是最新的高性能模型也很容易受到知识领域错误信息的影响,甚至 GPT-4o 的正确答案保留率在三轮之后也下降到了 27.32%。
另一方面,小型开源模型在接受修正方面更为灵活,但也极易受到错误信息的影响。
研究还证实,单纯的迭代具有很高的说服效果,而较新的开源模型则具有更强的迎合(谄媚)倾向。
在 SALAD-Bench 中,作为改进措施进行测试的整体 DPO 将抗误导性从 4.21% 显著提高到 76.54%,同时保持了 70% 以上的更正可接受性。
这一结果被评为比单纯的抗性增强类型更实用,并被证明对提高可靠性有重大贡献。
与本文相关的类别