从记忆到检索的 LLM：工具内学习的理论优势和证据

25/09/2025

三个要点
✔️ 模型内部的记忆（inweight learning）受到参数数量的限制，从而限制了知识的保留
✔️ 利用外部工具进行学习（in-tool learning）可以参考无限多的事实，而且高效、可扩展
✔️ 实验表明，in-tool learning可以防止性能下降，并可泛化到未知数据中。工具内学习可防止性能下降，并可推广到未知数据。

Provable Benefits of In-Tool Learning for Large Language Models
written by Sam Houliston, Ambroise Odonnat, Charles Arnal, Vivien Cabannes
(Submitted on 28 Aug 2025)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

总结

本文的研究强调了工具内学习（in-tool learning）的理论优势，即 LLM 利用外部工具。

传统的 LLM 依靠 "工具内学习"，即在学习过程中将知识嵌入参数。
然而，这种方法有其根本局限性。
虽然模型可存储的事实数量与参数数量成正比增长，但它不可能无限扩展，而且会受到遗忘和干扰的影响。

相比之下，工具内学习利用外部数据库和应用程序接口，理论上已证明与模型中的参数数量无关，原则上可以参考无限量的知识。
此外，实验也证明了工具内学习的有效性。

作者认为，从长远来看，学习利用工具的规则和程序比在模型内强制存储事实记忆更有效、更可扩展。
这项研究是一项重要成果，它表明在 LLM 设计中，意识形态应从 "巨大化记忆 "转向 "与外部知识合作"。

建议采用的方法

作者以事实检索任务为主题，正式定义了 "重量内学习 "和 "工具内学习 "的区别。

在 "重量内学习 "中，模型直接从输入句子中生成答案；而在 "工具内学习 "中，模型向外部数据库生成查询，然后对查询进行格式化并给出答案。
在这一框架下，我们首先得出了一个理论下限，并证明了加权学习只能保留与模型参数数量成比例的事实。

随后，对于工具内学习，作者证明了即使参数数量有限，也能通过外部搜索准确地回忆起任意数量的事实。
此外，作者还从理论上构建了可以实现工具调用的 Transformer 结构，并证明了所需参数的数量仅与属性数量的平方成正比。

这一理论框架严格定位了工具内学习，使知识获取超越了容量限制。

实验

为了证实理论结果，作者进行了两类实验。

首先，在一个小型变压器的受控实验中，使用合成的个人数据（姓名、出生地、出生日期、职业等）进行了比较。
在加权内学习中，所需参数随数据数量的增加而线性增加，超过一定规模后，准确记忆就变得困难。
与此相反，在工具内学习中，大约 1000 个案例之后就会出现一个明显的临界点，这证明模型并不是直接记忆事实，而是学习查询规则，并将其推广到未知数据中。

其次，在现有的预学习模型（如 Llama 和 SmolLM）上对附加事实进行了微调。
结果表明，内加权法降低了语言性能并改变了分布，而工具内加权法在基本保持性能的同时还具有可扩展性。

这些结果有力地表明，工具内学习在实践中也是高效和可持续的。