
LLMの説得耐性と柔軟性を探る!DuET-PDとHolistic DPOによる新たな評価と訓練手法
3つの要点
✔️ LLMは誤情報に騙されやすく、正しい修正を拒否するという二重の課題を抱えている
✔️ DuET-PDは知識と安全領域で、正負の説得下におけるLLMの立場変化を体系的に評価
✔️ Holistic DPOは誤情報耐性と訂正受容性を両立させ、モデルの信頼性を大幅に改善
Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
written by Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee
(Submitted on 24 Aug 2025 (v1), last revised 9 Sep 2025 (this version, v3))
Comments: To appear at EMNLP 2025
Subjects: Computation and Language (cs.CL); Computers and Society (cs.CY)
概要
本論文は、LLMが説得的な対話において示す立場の変化に着目し、その堅牢性と適応性を体系的に検証した研究です。
医療や金融といった高リスク領域においては、誤った説得に流されない一方で、正しい修正には柔軟に応じる能力が不可欠。
しかし既存のLLMには、誤情報に騙されやすい「軽信」と、正しい修正を拒む「頑固さ」という相反する問題が存在していました。
著者らは、この課題に対応するために「DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues)」を提案し、知識分野(MMLU-Pro)と安全分野(SALAD-Bench)を対象とした複数ターンの対話実験を実施。
さらに、既存の訓練方法では不十分であることを示し、正しい修正と誤情報耐性の両立を目指す「Holistic DPO」という新たな学習手法を提示しました。
提案手法
著者らはまず、DuET-PDという評価フレームワークを設計。
これは、①初期の回答精度を測定し、②正答していた場合には誤情報による「負の説得(NEG)」を、誤答していた場合には訂正のための「正の説得(POS)」を与える、③各ターン終了後に再度立場を確認する、という三段階から構成されています。
説得は「論理的訴求」「証拠に基づく訴求」「専門家の引用」「権威の引用」「感情的訴求(正/負)」および単純反復の七種類を用意し、複数ターンでの立場変化を追跡。
この枠組みにより、モデルの「堅牢性(誤情報を拒否する力)」と「受容性(正しい修正を受け入れる力)」を同時に定量化可能に。
さらに改善策として「Holistic DPO」という学習法を提案。
これは、誤情報を退けるサンプルと正しい修正を受け入れるサンプルをバランス良く含む訓練データを用い、単なる抵抗強化型訓練よりも、両者の均衡を重視したアプローチです。
実験
実験では、MMLU-ProとSALAD-Benchの計2,246問を用い、GPT-4oやLlama-3.1-8Bなど9種類のモデルを対象に、三ターンの説得対話を繰り返しました。
その結果、最新の高性能モデルであっても知識分野では誤情報に弱く、GPT-4oでさえ三ターン後には正答維持率が27.32%に低下。
一方で小型のオープンソースモデルは訂正を受け入れる柔軟性が高いものの、誤情報にも極めて脆弱であることが判明しました。
また、単純な反復だけでも高い説得効果を持つことや、新しいオープンソースモデルほど迎合傾向(sycophancy)が強まることも確認。
改善策として検証されたHolistic DPOは、SALAD-Benchにおいて誤情報耐性を4.21%から76.54%へ大幅に向上させつつ、正しい修正の受容性も70%以上を維持したとのこと。
この結果は、単なる抵抗強化型よりも実用性が高いと評価され、信頼性向上に大きく寄与することが示されました。
この記事に関するカテゴリー