LiveMCPBench：在大型工具环境中评估 LLM 代理的新基准

28/08/2025

三个要点
✔️ 提出了一个新的基准 LiveMCPBench，用于在大型 MCP 工具环境中评估 LLM 代理
✔️ LiveMCPTool 包含 70 台服务器和 527 个工具，是 LLM-as-a-Judge 方法的评估框架
✔️ Claude-Sonnet- 在实验中4 取得了约 79% 的成功率，许多模型暴露了性能差异和局限性。

LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
written by Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun
(Submitted on 3 Aug 2025)
Comments: Our code and data will be publicly available at this https URL
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

总结

本文提出了一种新的基准--LiveMCPBench，用于评估大型工具使用环境中代理的能力。

传统基准假定只有少量的应用程序接口和模拟工具环境，不能充分反映现实中多样和动态的工具环境。
因此，作者利用标准化接口--模型上下文协议（MCP），构建了 LiveMCPTool，其中包括 70 个 MCP 服务器和 527 个真实工具。
此外，他们还引入了可实现评估自动化的 LiveMCPEval，通过使用 LLM 作为评估者，他们实现了与人类评估者 81% 的一致率。

我们还提出了可实现工具探索和顺序使用的 MCP Copilot Agent，并对十种最先进的模型进行了比较。
结果证实，Claude-Sonnet-4 的成功率约为 79%，而大多数模型的成功率仅为 30%-50%，这表明在大规模工具环境中的能力存在显著差异。

这项研究为评估提供了一个现实的、可重复的基础，并为未来的代理研究奠定了基础。