LLM API Benchmark MCP Server 使用教程

2025-06-26 约 697 字预计阅读 2 分钟

本文介绍了如何配置和使用llm-api-benchmark-mcp-server，一个允许LLM Agent在自然语言指令下测量LLM API吞吐性能的工具，并详细说明了在Roo Code中设置和进行并发性能测试的步骤。

简介

在本地部署 LLM 时，你可能会关心吞吐性能是否能达到预期效果，或许是在你调用服务商提供的 API 接口时，可能会好奇 LLM 提供商的 API 在实际并发负载下的性能表现如何，在多用户多并发的情况下是否可以满足大部分用户需求。如何科学、准确地评估这些API的真实性能，而非仅凭宣传数据或是vllm这种工具在后端给出的瞬时吞吐量，这个工具可以帮到你。

本文主要介绍的基于这个项目，实现的 MCP Server，它可以让你的 LLM Agent 拥有一个可以测量 LLM API 吞吐性能的工具，从而在你的自然语言指令下，帮助你完成一系列并发下的测试。

项目地址：https://github.com/Yoosu-L/llm-api-benchmark-mcp-server

快速开始

本文将以 Roo Code 作为演示，配置 mcp server 并实现一次简单的性能测试。

配置 MCP Server

首先在 Roo Code 中找到 MCP Server 配置

这将会打开一个 json 配置文件，编辑该配置文件：

{
  "mcpServers": {
    "llm-benchmark-stdio": {
      "command": "uvx",
      "args": [
        "--refresh",
        "--quiet",
        "llm-api-benchmark-mcp-server"
      ]
    }
  }
}

成功配置后，左侧 MCP Server 会多出一个新的工具，亮起绿灯代表已经配置成功，如果配置失败可以到项目Issues 提交相关信息。

对话

启用工具后就可以开始对话了，我们这里用这个示例 prompt

Please help me perform a LLM api benchmark on this address with concurrency levels of 1 and 2.
https://my-llm-api-service.com/v1, sk-xxx

如果模型能力正常，则会提示是否允许调用工具，点击允许后，工具会运行，再等待一会后，模型会给出本次测试结果

当然如果想让你的 LLM Agent 对结果进一步分析，你也可以继续提问，不过我们这里只进行演示，就不进行后续步骤了。

目录

LLM API Benchmark MCP Server 使用教程

简介

快速开始

配置 MCP Server

对话