LLM API Benchmark MCP Server 使用教程

本文介绍了如何配置和使用
llm-api-benchmark-mcp-server
,一个允许LLM Agent在自然语言指令下测量LLM API吞吐性能的工具,并详细说明了在Roo Code中设置和进行并发性能测试的步骤。
简介
在本地部署 LLM 时,你可能会关心吞吐性能是否能达到预期效果,或许是在你调用服务商提供的 API 接口时,可能会好奇 LLM 提供商的 API 在实际并发负载下的性能表现如何,在多用户多并发的情况下是否可以满足大部分用户需求。如何科学、准确地评估这些API的真实性能,而非仅凭宣传数据或是vllm这种工具在后端给出的瞬时吞吐量,这个工具可以帮到你。
本文主要介绍的基于这个项目,实现的 MCP Server,它可以让你的 LLM Agent 拥有一个可以测量 LLM API 吞吐性能的工具,从而在你的自然语言指令下,帮助你完成一系列并发下的测试。
项目地址:https://github.com/Yoosu-L/llm-api-benchmark-mcp-server
快速开始
本文将以 Roo Code 作为演示,配置 mcp server 并实现一次简单的性能测试。
配置 MCP Server
首先在 Roo Code 中找到 MCP Server 配置
这将会打开一个 json 配置文件,编辑该配置文件:
{
"mcpServers": {
"llm-benchmark-stdio": {
"command": "uvx",
"args": [
"--refresh",
"--quiet",
"llm-api-benchmark-mcp-server"
]
}
}
}
成功配置后,左侧 MCP Server 会多出一个新的工具,亮起绿灯代表已经配置成功,如果配置失败可以到 项目Issues 提交相关信息。
对话
启用工具后就可以开始对话了,我们这里用这个示例 prompt
Please help me perform a LLM api benchmark on this address with concurrency levels of 1 and 2.
https://my-llm-api-service.com/v1, sk-xxx
如果模型能力正常,则会提示是否允许调用工具,点击允许后,工具会运行,再等待一会后,模型会给出本次测试结果
当然如果想让你的 LLM Agent 对结果进一步分析,你也可以继续提问,不过我们这里只进行演示,就不进行后续步骤了。