LLMのデバッグは何回まで有効か？効果の減衰を見抜く新指標『DDI』とは

LLM-Paper 2025年08月06日

3つの要点
✔️ LLMによるデバッグ能力は数回の試行で急激に低下すると確認
✔️ 提案手法DDIは、デバッグ効果の減衰を指数関数で定量化する評価指標
✔️ DDIに基づく再生成戦略により、精度を効率的に向上させられることが実証された

The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs
written by Muntasir Adnan, Carlos C. N. Kuhn
(Submitted on 23 Jun 2025 (v1), last revised 13 Jul 2025 (this version, v2))
Comments: Published on arxiv.
Subjects:Software Engineering (cs.SE); Artificial Intelligence (cs.AI)

概要

本論文は、コード生成におけるLLMのデバッグ能力が、繰り返しの試行によって急速に低下するという「デバッグ減衰現象」に注目し、その実態を定量的に評価する新たな指標「Debugging Decay Index（DDI）」を提案。

従来、LLMによるコード生成は、単発の生成結果を評価するpass@kのような静的指標に依存していました。
そこで、本研究では実際の開発プロセスに近い「逐次的なデバッグ」に着目し、その効果が指数関数的に減衰するという特性をモデル化。DDIは初期性能（E₀）、減衰率（λ）、戦略的な介入タイミング（tθ）、適合度（R²）を組み合わせて、モデルのコード生成およびデバッグ能力を多面的に評価します。
また、減衰が一定閾値に達したタイミングで「フレッシュスタート（再生成）」を行うことで、精度の大幅な改善が可能であることも実験的に示されました。

提案手法

提案手法であるDDIは、LLMによる逐次的なデバッグ能力を定量的に評価するための数理モデルです。

まず、各デバッグ試行の効果を正規化し、その変化を指数関数的減衰関数E(t) = E₀e^(-λt)としてモデル化。ここでE₀は初期のデバッグ成功率、λは減衰率、tはデバッグ回数を表します。
さらに、特定の効果減衰閾値θに達するまでの回数tθを、式 tθ = ln(100 / (100 − θ)) / λ によって算出し、戦略的な打ち切りや再生成の判断基準とします。DDIの出力は、(E₀, λ, tθ, R²)という4つ組からなり、それぞれモデルの初期性能、デバッグ持続性、再生成の最適タイミング、および減衰モデルの適合度を意味するとのこと。

この手法は、LLMがデバッグ過程でどのように改善し、どこで限界を迎えるかを可視化できるだけでなく、改善可能性が残る状態で再生成を行うことで、総合的な精度向上を可能にする設計となっています。

実験

本研究では、HumanEvalデータセットを用いて、18種類の最先端LLMに対してDDIを適用し、そのデバッグ能力の減衰特性を分析。

各モデルにおいて初期成功率（E₀）、減衰率（λ）、戦略的再生成タイミング（tθ）、および指数減衰への適合度（R²）を算出し、モデル間の比較を実施。
さらに、従来の継続的なデバッグ戦略と比較して、tθで「フレッシュスタート（再生成）」を行う戦略の効果も検証しました。
その結果、再生成によってすべてのモデルで精度が改善し、特にllama3.1:8bでは72.6%から82.8%、deepseek-coder-v2:16bでは84.1%から92.1%へと顕著な向上が見られました。

このように、戦略的介入は、単に試行回数を増やすよりも効率的であることが明らかに。
また、モデルによってλやR²に違いがあることから、デバッグ持続性や応答パターンにはモデル固有の傾向があることも示唆されています。