LiveMCPBench：大規模ツール環境でLLMエージェントを評価する新たなベンチマーク

LLM-Paper 2025年08月28日

3つの要点
✔️ 大規模MCPツール環境でLLMエージェントを評価する新ベンチマークLiveMCPBenchを提案
✔️ 70サーバ・527ツールを収録したLiveMCPToolとLLM-as-a-Judge方式の評価枠組みを構築
✔️ 実験でClaude-Sonnet-4が約79%成功率を達成、多くのモデルは性能差や限界を露呈

LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
written by Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun
(Submitted on 3 Aug 2025)
Comments: Our code and data will be publicly available at this https URL
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

概要

本論文は、大規模なツール利用環境におけるエージェントの能力を評価するために、新たなベンチマーク『LiveMCPBench』を提案しています。

従来のベンチマークは、少数のAPIや模擬的なツール環境を前提としており、現実の多様で動的なツール環境を十分に反映していませんでした。
そこで著者らは、MCP（Model Context Protocol）という標準化インターフェースを活用し、70のMCPサーバと527の実際のツールからなる LiveMCPTool を構築。
さらに、評価の自動化を可能にする LiveMCPEval を導入し、LLMを評価者として用いることで、人間評価者と81%の一致率を達成しています。

また、ツール探索と逐次利用を可能とする MCP Copilot Agent を提案し、10種類の最先端モデルを比較。
その結果、Claude-Sonnet-4 が約79%の成功率を示した一方、多くのモデルは30〜50%にとどまり、大規模ツール環境下での能力に大きな差があることが確認されました。

本研究は、現実的かつ再現性の高い評価基盤を提供し、今後のエージェント研究の基盤を築くものです。

提案手法

著者らは、エージェントが大規模なMCPツール群を効果的に活用できるかを評価するために、4つの主要要素から成る枠組みを設計。

第一に、多様な日常タスクを設計し、オフィス業務・生活情報・金融・旅行・ショッピングなど、6領域95種類の実用的タスクを収集しました。
これにより、時間変化性や複数ツールの統合利用が必要となる実世界に即した課題を用意しています。

第二に、LiveMCPTool を構築し、外部APIキー依存を排除した70サーバ・527ツールを収録し、研究者がすぐに利用可能な形で提供しました。

第三に、LiveMCPEval を提案し、エージェントのツール利用過程をLLMが判定する方式を採用。
これにより、解の多様性や時間依存性を含む環境下でも頑健に評価できます。

最後に、MCP Copilot Agent を開発し、ReACT戦略をベースにツール探索と逐次実行を統合しました。
この枠組みにより、従来手法が抱えていたAPI不安定性や小規模性の問題を克服し、現実的かつ再現可能な評価環境を実現。

実験

実験では、Claude-Opus-4・Claude-Sonnet-4・GPT-4.1・Gemini-2.5-Pro・DeepSeek-V3など、主要10モデルを対象に、95タスクを用いた性能比較を行いました。

評価にはDeepSeek-V3を用いたLLM-as-a-Judge方式を採用し、人間評価とも照合。
その結果、Claude-Sonnet-4が最も高い78.95%の成功率を達成し、次点のClaude-Opus-4が70.53%となりました。

一方でGPT-4.1やGemini-2.5-Proは40%前後にとどまり、多くのモデルがツールの探索・組み合わせに失敗することが確認。
特に、ツール誤用やパラメータ指定の失敗、適切なツールが見つからない「Retrieve Error」が主要な失敗要因となっていました。

また、モデルごとの利用行動分析では、Claude系が積極的に複数ツールを探索・活用する一方、他モデルは単一ツール依存に陥りやすい傾向が見られました。
さらに、コストと性能のトレードオフ分析により、Claude-Sonnet-4やQwen2.5-72Bなどが費用対効果の高いモデルとして特定されたとのこと。

以上の結果から、現行モデルの多くは大規模ツール環境下で依然として限界を抱えており、今後はタスク分解や動的計画能力の改善が求められると結論づけています。