赶上最新的AI论文

由 MCP-Bench 首创的 LLM 代理评估新趋势!复杂任务和真实世界场景的挑战

由 MCP-Bench 首创的 LLM 代理评估新趋势!复杂任务和真实世界场景的挑战

三个要点
✔️ MCP-Bench 是一个利用 28 台服务器和 250 个工具对现实复杂任务中的 LLM 进行评估的基准
✔️ 设计具有模糊指令和跨域依赖性的任务,以便从多个方面衡量 LLM 的能力
✔️ 实验结果表明,虽然基本执行精度趋于一致,但在规划和推理能力方面仍存在长期的显著差异。在计划和推理能力方面仍存在明显差异。

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
written by Zhenting WangQi ChangHemani PatelShashank BijuCheng-En WuQuan LiuAolin DingAlireza RezazadehAnkit ShahYujia BaoEugene Siow
(Submitted on 28 Aug 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

小结

本文提出了一种新的基准--MCP-Bench,用于评估 LLM 执行现实复杂任务的能力。

传统的基准通常假定只调用一次应用程序接口(API)或人为连接一个工具链,因此无法充分衡量在现实世界中所需的多个工具之间处理长期规划和模糊指令的能力。

MCP-Bench 利用模型上下文协议 (MCP),将 28 台 MCP 服务器与 250 种真实工具相结合,从而克服了这一难题。
它复制了金融、科学计算、旅行规划和学术搜索等不同领域的现实任务,并评估了代理能否正确发现工具、理解依赖关系和构建复杂的工作流程。

该基准为系统地测试工具模式理解、长期规划、信息理由陈述和跨领域协调等能力提供了一个框架,并通过在 20 个高级 LLM 上进行大规模实验,揭示了仍然存在的挑战。

建议的方法

MCP-Bench 拟议方法的独特之处在于,它在再现现实工具使用场景的同时,还能测量 LLM 代理的多维能力。

首先,收集通过 MCP 服务器提供的多组工具,并分析其输入输出依赖关系。
然后,根据依赖关系合成自然语言任务,并进一步将其转换为省略明确工具名称和程序的 "模糊描述",以测试代理根据上下文推断适当工具的能力。

评估以双层结构进行。
首先,基于规则的评估衡量工具名称的适当性、模式合规性、执行成功率和依赖性合规性。
其次,使用 LLM 作为考官,对任务完成情况、信息的合理性、工具选择的适当性以及规划的一致性和效率进行评分。

这种设计可以对长期规划和跨领域协调技能进行严格评估,而传统基准无法衡量这些技能。

实验

作者使用 MCP-Bench 评估了 20 个高级 LLM。

实验在单服务器和多服务器环境下进行,涵盖 104 个不同的复杂任务。
结果表明,功能强大的模型集(如 GPT-5、o3、gpt-oss-120b)在模式理解和工具命名准确性方面的准确率接近 100%,但在长期规划、依赖关系识别和并行处理效率等高阶能力方面存在显著差异。

特别是,小规模模型在单服务器环境中取得了一定的成功,但在转到多服务器环境时得分明显下降,而且在维护依赖关系的能力方面也表现出了弱点。
另一方面,顶级模型在跨域和长期工作流中保持了相对稳定的性能。

这些结果表明,虽然仅在工具调用准确性方面的差距正在缩小,但战略推理和规划才是当前 LLM 的优势所在。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们