MCP-Benchが拓くLLMエージェント評価の新潮流！複雑タスクと実世界シナリオへの挑戦

LLM-Paper 2025年09月08日

3つの要点
✔️ MCP-Benchは、28サーバー・250ツールを活用し現実的な複雑タスクでLLMを評価するベンチマーク
✔️ ファジーな指示やクロスドメイン依存関係を含む課題を設計し、多面的にLLM能力を測定
✔️ 実験の結果、基礎的な実行精度は収束する一方で、長期計画や推論力に大きな差が残った

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers
written by Zhenting Wang, Qi Chang, Hemani Patel, Shashank Biju, Cheng-En Wu, Quan Liu, Aolin Ding, Alireza Rezazadeh, Ankit Shah, Yujia Bao, Eugene Siow
(Submitted on 28 Aug 2025)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

概要

本論文では、LLMが現実的かつ複雑なタスクを遂行する能力を評価するための新たなベンチマーク「MCP-Bench」が提案されています。

従来のベンチマークは、単一のAPI呼び出しや人工的に繋ぎ合わせたツールチェーンを前提とすることが多く、実世界で必要となる複数のツールを跨ぐ長期的な計画やファジーな指示に対応する力を十分に測定できませんでした。

MCP-Benchは、この課題を克服するため、Model Context Protocol（MCP）を活用し、28のMCPサーバーと250種類の実運用ツールを組み合わせています。
これにより、金融、科学計算、旅行計画、学術検索といった多様な分野での現実的なタスクを再現し、エージェントがツールを正しく発見し、依存関係を理解し、複雑なワークフローを構築できるかを評価。

本ベンチマークは、ツールスキーマ理解、長期計画、情報の根拠提示、クロスドメイン調整などの能力を体系的に検証できる枠組みを提供し、20種類の先進的なLLMに対する大規模実験を通じて、依然として残る課題を明らかにしました。

提案手法

MCP-Benchの提案手法は、現実的なツール利用シナリオを再現しながら、LLMエージェントの多面的な能力を測定する点に特徴があります。

まず、MCPサーバーを通じて提供される複数のツール群を収集し、入出力の依存関係を分析。
その上で、依存関係に基づく自然言語タスクを合成し、さらに明示的なツール名や手順を省略した「ファジーな記述」に変換することで、エージェントが文脈から適切なツールを推論する力を試します。

評価は二層構造で行われます。
第一に、ルールベース評価によりツール名の妥当性、スキーマ準拠、実行成功率、依存関係の順守を測定。
第二に、LLMを審査官として活用し、タスク完遂度、情報の根拠提示、ツール選択の適切性、計画の一貫性や効率性を採点。

この設計により、従来のベンチマークでは測りきれなかった長期的計画性やクロスドメイン協調の力を厳密に評価できるようになっています。

実験

著者らは、MCP-Benchを用いて20種類の先進的LLMを評価。

実験は、単一サーバー環境と複数サーバー環境の両方で行われ、104種類の複雑なタスクが対象となりました。
結果として、強力なモデル群（GPT-5、o3、gpt-oss-120bなど）は、スキーマ理解やツール命名の正確性でほぼ100%に近い精度を示しましたが、長期的計画や依存関係認識、並列処理効率といった高次能力では顕著な差が見られたとのこと。

特に小規模モデルでは、単一サーバー環境では一定の成果を上げるものの、複数サーバー環境に移行するとスコアが大きく低下し、依存関係を維持する力に弱さが現れました。
一方でトップモデルは、クロスドメインかつ長期的なワークフローでも比較的安定した性能を維持。

これらの結果は、単なるツール呼び出し精度では差が縮小している一方で、戦略的な推論力や計画力こそが現行LLMの差別化要因であることを示しています。