调试 LLM 多少次有效？用于检测效果衰减的新指标 "DDI "是什么？

06/08/2025

三个要点
✔️ 使用 LLM 的调试能力在几次试验后迅速下降
✔️ 所提出的方法 DDI 是一种评估指标，它以指数函数的形式量化调试效果的衰减
✔️ 基于 DDI 的再生策略证明，准确性可以得到有效提高。

The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs
written by Muntasir Adnan, Carlos C. N. Kuhn
(Submitted on 23 Jun 2025 (v1), last revised 13 Jul 2025 (this version, v2))
Comments: Published on arxiv.
Subjects:Software Engineering (cs.SE); Artificial Intelligence (cs.AI)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

总结

本文重点研究了调试衰减现象（Debugging Decay Phenomenon），即 LLM 在代码生成过程中的调试能力会随着反复试验而迅速衰减，并提出了一个新的指标--调试衰减指数（Debugging Decay Index，DDI）来定量评估这一现实。

传统上，LLM 代码生成依赖于静态指标，如 pass@k，它评估的是单次生成尝试的结果。
因此，本研究将重点放在更贴近实际开发过程的 "顺序调试 "上，并对其有效性的指数衰减性质进行建模：DDI 结合了初始性能 (E₀)、衰减率 (λ)、策略干预时机 (tθ) 和拟合度 (R²) 来生成代码和调试模型。实验结果还表明，从多角度来看，该方法显著提高了生成代码和调试模型的能力。
实验结果还表明，当衰减达到一定阈值时，通过执行 "重新开始"（重新生成），可以显著提高准确性。

建议的方法

所提出的 DDI 方法是一个定量评估 LLM 顺序调试能力的数学模型。

首先，将每次调试试验的效果归一化，并将其变化模拟为指数衰减函数 E(t) = E₀e^(-λt)其中，E₀ 是初始调试成功率，λ 是衰减率，t 是调试尝试次数。
此外，通过公式 tθ = ln(100 / (100 - θ))/λ，还可计算出 tθ 直至达到特定效果衰减阈值 θ 的次数，并以此作为策略终止或重新生成的标准 DDI 输出包括四对（E₀、λ、tθ、R²），每对代表一个模型它们分别代表初始性能、调试持久性、再生的最佳时机以及衰减模型的拟合度。

该方法不仅可以直观地显示 LLM 在调试过程中的改进情况以及达到极限的位置，还可以在仍有改进潜力的情况下进行再生，从而提高总体精度。

实验

本研究将 DDI 应用于 HumanEval 数据集上的 18 个最先进的 LLM，以分析其调试能力衰减特性。

对于每个模型，都计算了初始成功率（E₀）、衰减率（λ）、策略再生时机（tθ）和指数衰减适配度（R²），并对不同模型进行了比较。
此外，还测试了在 tθ 时 "重新开始"（再生）的策略与传统的连续调试策略相比的有效性。
结果显示，重新生成提高了所有模型的准确性，尤其是 llama3.1:8b 模型的准确性从 72.6% 提高到 82.8%，deepseek-coder-v2:16b 模型的准确性从 84.1% 提高到 92.1%。

因此，战略性干预比单纯增加试验次数更有效。
不同模型之间 λ 和 R² 的差异也表明，调试持续性和响应模式存在特定模型的趋势。