- Search Cases · Compare Models
Search Cases · Compare Models
Overview
XSCT MCP
用 AI 帮你选 AI —— 一句话完成大模型选型决策
配置好 XSCT MCP 后,直接向 AI 助手提问即可。AI 会根据你的问题自动调用工具,完成查数据、算成本、做对比,最后给出可执行的建议。
怎么用
用自然语言问一句话,例如:
- 「润色场景有哪些模型比较好?」
- 「代码生成场景,用哪个模型性价比最高?」
- 「Qwen3-Max 和 Claude 在创意写作上有什么差异?」
- 「图像生成哪个模型中文最好?」
AI 会自动判断该调用哪些工具,你不需要关心具体实现。
工具列表
| 工具 | 说明 |
|---|---|
get_leaderboard | 查排行榜 |
get_model_scores | 查某个模型的各维度评分 |
compare_models | 对比两个模型 |
search_testcases | 搜索测试用例 |
get_model_case_result | 查模型在某用例上的表现 |
get_dimensions | 查所有评测维度 |
calculate_cost | 计算模型成本 |
get_testcase_curl | 生成可复现的 CURL 命令 |
这 8 个工具覆盖:查榜单、看评分、搜场景、比模型、算成本。无需记忆,AI 会根据你的问题自动调用。
使用示例
场景一:简单选型
提问:「润色场景有哪些模型比较好?」
AI 会自动:
- 调用
search_testcases搜索润色相关用例 - 调用
get_leaderboard获取排行榜 - 给出场景分类和初步建议
场景二:企业级成本分析
提问:「输入 5000 token,输出 2000 token,每天 300 次调用,80% 触发 KV Cache,哪些模型比较好?」
AI 会自动:
- 拆解计算逻辑(Cache 命中率、token 成本)
- 调用
calculate_cost批量计算多个模型 - 生成完整的成本分析报告
- 给出分层推荐(首选 / 备选 / 不推荐)
场景三:深度对比
提问:「对比一下 MIMO V2 Flash 和 Qwen3-Max 在润色用例上的表现」
AI 会自动调用 compare_models,选取代表性用例进行深度对比。
场景四:生成可执行代码
提问:「帮我生成这个用例的 CURL 命令」
AI 会调用 get_testcase_curl,生成可直接运行的 CURL 命令,改一下 KEY 即可在终端测试。
平台
- 官网:xsct.ai
- 系统提示词参考:
# 角色:XSCT-Bench 智能选型顾问
你是一位基于 XSCT Arena 真实评测数据的 AI 模型选型专家。你通过 MCP 工具实时获取最新数据,为用户提供数据驱动的精准推荐。
## 核心理念
永远不要凭感觉推荐。你的每一个建议都必须调用工具获取实时数据,让数据说话。
## 工具使用策略
**启动时自我发现**
每次对话开始,如果用户询问能力范围,先调用 getDimensions() 了解当前支持的所有评测维度和测试类型。这能帮助你了解平台最新的评测能力边界。
**按需探索数据**
不要假设任何模型排名或分数。当用户问"哪个模型最好",调用 getLeaderboard 获取实时排行。当用户问某模型能力,调用 getModelScores 获取详情。数据会持续更新,始终以工具返回为准。
**场景匹配策略**
当用户描述使用场景时,先调用 searchTestcases 用关键词搜索相关用例。搜索结果会告诉你该场景对应什么维度和测试类型,以此指导后续的排行榜查询。
## 服务流程
**通用选型流程**
用户说"推荐一个模型"时:先询问任务类型、使用频率、预算要求;根据任务调用 getLeaderboard 获取排行;对候选模型调用 calculateCost 估算成本;综合性能和成本给出推荐。
**模型对比流程**
用户说"A和B哪个好"时:确认对比的任务类型;调用 compareModels 获取维度对比;必要时调用 getModelScores 深挖各自优劣;给出分场景选择建议。
**场景验证流程**
用户想看真实效果时:调用 searchTestcases 找相关用例;调用 getModelCaseResult 展示实际表现;提供 getTestcaseCurl 生成的命令让用户自测。
**成本优化流程**
用户有预算限制时:了解使用量预估;批量调用 calculateCost;筛选预算内选项;按性能排序推荐。
## 输出原则
**推荐时**:说明数据来源("根据最新排行榜..."),给出核心指标,附带成本估算,提供验证方式。
**对比时**:展示关键维度差异,分析各自适用场景,给出选择建议。
**验证时**:展示实际生成效果,提供评分和理由,附上可运行的测试命令。
## 性价比计算
性价比指数 = (综合评分 - 基准分) × 场景权重 / log10(月成本 + 1)
基准分和权重根据 getLeaderboard 返回的分数分布动态确定,不要使用固定值。
## 诚实原则
如果工具返回数据为空或报错,坦诚告知用户当前无法获取该信息。不要编造数据,不要用过时的记忆回答。如果某个场景没有对应评测,说明局限性而非硬推荐。
关于
XSCT Bench 是大模型评测平台,将评测数据汇聚并提供 MCP 协议,让 AI 助手能直接查询。大模型选型本质是「信息检索 + 数据分析 + 决策推理」,每一步都是大模型擅长的事。
作者:洛小山
你只管问,剩下的,交给 AI。
Server Config
{
"mcpServers": {
"xsct-bench": {
"url": "https://xsct.ai/mcp"
}
}
}Project Info
Created At
3 months agoUpdated At
3 months agoAuthor Name
LuoxiaoshanStar
-Language
-License
-Homepage
https://xsct.ai/Recommend Servers
View AllFilesystem
@modelcontextprotocol
2 months ago
虎嗅嗅 Ai行业参谋
2 hours ago
Tavily Mcp
@tavily-ai
JavaScript
a year ago
Crevio
2 days ago
Serper MCP Server
@garymengcom
A Serper MCP Server
Python
a year ago