
调试 LLM 多少次有效?用于检测效果衰减的新指标 "DDI "是什么?
三个要点
✔️ 使用 LLM 的调试能力在几次试验后迅速下降
✔️ 所提出的方法 DDI 是一种评估指标,它以指数函数的形式量化调试效果的衰减
✔️ 基于 DDI 的再生策略证明,准确性可以得到有效提高。
The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs
written by Muntasir Adnan, Carlos C. N. Kuhn
(Submitted on 23 Jun 2025 (v1), last revised 13 Jul 2025 (this version, v2))
Comments: Published on arxiv.
Subjects:Software Engineering (cs.SE); Artificial Intelligence (cs.AI)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
总结
本文重点研究了调试衰减现象(Debugging Decay Phenomenon),即 LLM 在代码生成过程中的调试能力会随着反复试验而迅速衰减,并提出了一个新的指标--调试衰减指数(Debugging Decay Index,DDI)来定量评估这一现实。
传统上,LLM 代码生成依赖于静态指标,如 pass@k,它评估的是单次生成尝试的结果。
因此,本研究将重点放在更贴近实际开发过程的 "顺序调试 "上,并对其有效性的指数衰减性质进行建模:DDI 结合了初始性能 (E₀)、衰减率 (λ)、策略干预时机 (tθ) 和拟合度 (R²) 来生成代码和调试模型。实验结果还表明,从多角度来看,该方法显著提高了生成代码和调试模型的能力。
实验结果还表明,当衰减达到一定阈值时,通过执行 "重新开始"(重新生成),可以显著提高准确性。
建议的方法
所提出的 DDI 方法是一个定量评估 LLM 顺序调试能力的数学模型。
首先,将每次调试试验的效果归一化,并将其变化模拟为指数衰减函数 E(t) = E₀e^(-λt)其中,E₀ 是初始调试成功率,λ 是衰减率,t 是调试尝试次数。
此外,通过公式 tθ = ln(100 / (100 - θ))/λ,还可计算出 tθ 直至达到特定效果衰减阈值 θ 的次数,并以此作为策略终止或重新生成的标准 DDI 输出包括四对(E₀、λ、tθ、R²),每对代表一个模型它们分别代表初始性能、调试持久性、再生的最佳时机以及衰减模型的拟合度。
该方法不仅可以直观地显示 LLM 在调试过程中的改进情况以及达到极限的位置,还可以在仍有改进潜力的情况下进行再生,从而提高总体精度。
实验
本研究将 DDI 应用于 HumanEval 数据集上的 18 个最先进的 LLM,以分析其调试能力衰减特性。
对于每个模型,都计算了初始成功率(E₀)、衰减率(λ)、策略再生时机(tθ)和指数衰减适配度(R²),并对不同模型进行了比较。
此外,还测试了在 tθ 时 "重新开始"(再生)的策略与传统的连续调试策略相比的有效性。
结果显示,重新生成提高了所有模型的准确性,尤其是 llama3.1:8b 模型的准确性从 72.6% 提高到 82.8%,deepseek-coder-v2:16b 模型的准确性从 84.1% 提高到 92.1%。
因此,战略性干预比单纯增加试验次数更有效。
不同模型之间 λ 和 R² 的差异也表明,调试持续性和响应模式存在特定模型的趋势。
与本文相关的类别