LLM Agent 能力排行:任务自动化该选谁
"Agent"这个词已经被用烂了。本页说的 Agent 能力,是让模型自主完成多步骤任务的能力—— 调用工具、规划执行路径、处理中间失败、在长链路上保持上下文不丢。 数据来自 AA Agentic Index(国际基准)和 SuperCLUE 智能体(任务规划)(中文场景),两份榜单独立展示。
GPT-5.5 的 Agent 能力是断档第一。 AA Agentic Index 74.12,比第二名 Claude Opus 4.7(71.29)高 2.83 分,比第三名 Gemini 3.1 Pro(59.09)高出整整 15 分。 这意味着 OpenAI 在"让模型自主做事"这个维度上建立了真正的护城河——不是领先一点,是拉开一个身位。
但中文场景里,Claude 的领先优势被抹平了。 SuperCLUE 智能体任务规划榜,Claude Opus 4.6(max) 以 89.35 排第一, 国内 字节豆包 Doubao-Seed-2.0-pro 拿到 81.04 排第二—— 比 GPT-5.4(xhigh) 的 80.04 还高一点。中文 prompt 下的任务规划,国内头部已经不输国际。
DeepSeek V4 Pro 的 Agent 能力被低估了。 AA Agentic 67.19 排全球第 6(国内第 2),SuperCLUE 智能体 77.49 排国内第 3。 很多人只知道 DeepSeek 便宜,不知道它在长链路任务上的表现比 GLM-5(66.64)和 MiniMax-M2.5(65.64)强出一截。
Agent 性价比和 Coding 性价比是两套逻辑。 DeepSeek V4 Flash 的 Agentic/$ 高达 218.9(比 Coding/$ 的 138 还高), 因为 Flash 的 Agentic Index(61.28)和 Pro(67.19)差距只有 6 分,但价格差了 12 倍。 做批量 Agent 任务时,Flash 可能是被忽视的最佳选择。
AA Agentic Index 全球榜 · Top 20
来源:Artificial Analysis, 抓取于 2026-05-12。Agentic Index 综合自 Tau²-Bench Telecom、TerminalBench Hard、IFBench、GDPval-AA 等公开基准, 测的是模型在"多步骤任务"上的端到端成功率。
| # | 模型 | Agentic | 输出价 $/M | 国 |
|---|---|---|---|---|
| 1 | GPT-5.5 OpenAI | 74.12 | $30.00 | 🇺🇸 |
| 2 | Claude Opus 4.7 Anthropic | 71.29 | $25.00 | 🇺🇸 |
| 3 | MiMo-V2.5-Pro Xiaomi | 67.44 | $3.00 | 🇨🇳 |
| 4 | DeepSeek V4 Pro DeepSeek | 67.19 | $3.48 | 🇨🇳 |
| 5 | GLM-5.1 Z AI | 67.05 | $4.40 | 🇨🇳 |
| 6 | Kimi K2.6 Kimi | 65.97 | $4.00 | 🇨🇳 |
| 7 | Grok 4.3 xAI | 65.89 | $2.50 | 🇺🇸 |
| 8 | MiMo-V2.5 Xiaomi | 65.53 | $1.80 | 🇨🇳 |
| 9 | Qwen3.6 Max Preview Alibaba | 64.83 | $7.80 | 🇨🇳 |
| 10 | GLM-5 Z AI | 63.14 | $3.20 | 🇨🇳 |
| 11 | Claude Sonnet 4.6 Anthropic | 63.00 | $15.00 | 🇺🇸 |
| 12 | Qwen3.6 Plus Alibaba | 61.67 | $3.00 | 🇨🇳 |
| 13 | MiniMax-M2.7 MiniMax | 61.49 | $1.20 | 🇨🇳 |
| 14 | DeepSeek V4 Flash DeepSeek | 61.28 | $0.28 | 🇨🇳 |
| 15 | GPT-5.3 Codex OpenAI | 60.54 | $14.00 | 🇺🇸 |
| 16 | Gemini 3.1 Pro Preview Google | 59.09 | $12.00 | 🇺🇸 |
| 17 | GPT-5.4 mini OpenAI | 58.88 | $4.50 | 🇺🇸 |
| 18 | GPT-5.4 OpenAI | 58.22 | $15.00 | 🇺🇸 |
| 19 | Gemini 3 Flash Google | 49.66 | $3.00 | 🇺🇸 |
| 20 | GPT-5.4 nano OpenAI | 47.60 | $1.25 | 🇺🇸 |
前 3 名(GPT-5.5 / Claude Opus 4.7 / MiMo-V2.5-Pro)把第 4 名(Kimi K2.6,65.97)甩开 5 分以上。 GPT-5.5 的 74.12 和 Kimi K2.6 的 65.97 之间隔了 8 分——这个差距在 Agent 任务上意味着"能搞定"和"经常出错"的区别。
一个值得注意的现象:Agentic Index 和 Intelligence Index 并不完全正相关。 GPT-5.5 两个都是第 1,但 Claude Opus 4.7 Intelligence 第 2、Agentic 也是第 2,而 Gemini 3.1 Pro Intelligence 第 3、Agentic 只排第 5。 反过来,MiMo-V2.5-Pro Intelligence 第 5、Agentic 冲到第 3——小米的模型在"自主做事"上比"做题"更强。
国内厂商的 Agentic 分布很集中:Kimi K2.6(65.97)和 DeepSeek V4 Pro(67.19)在第一档, MiMo-V2.5-Pro(67.44)意外冲到第三,GLM-5.1(67.05)和 Qwen3.6 Max(64.83)紧随其后。 国内 Top 5 的 Agentic 差距只有 2.6 分,比 Intelligence 上的 4.3 分更紧凑—— 说明国内厂商在 Agent 能力上的差距比通用智能更小,选谁主要看价格和生态。
AA Agentic Index 国内 Top 10
把全球榜筛出国内厂商单独看,国内"Agent 档"的内部排序和全球视角差异不大——国内头部本来就参与全球竞争。
| # | 模型 | Agentic | 输出价 $/M |
|---|---|---|---|
| 1 | MiMo-V2.5-Pro Xiaomi | 67.44 | $3.00 |
| 2 | DeepSeek V4 Pro DeepSeek | 67.19 | $3.48 |
| 3 | GLM-5.1 Z AI | 67.05 | $4.40 |
| 4 | Kimi K2.6 Kimi | 65.97 | $4.00 |
| 5 | MiMo-V2.5 Xiaomi | 65.53 | $1.80 |
| 6 | Qwen3.6 Max Preview Alibaba | 64.83 | $7.80 |
| 7 | GLM-5 Z AI | 63.14 | $3.20 |
| 8 | Qwen3.6 Plus Alibaba | 61.67 | $3.00 |
| 9 | MiniMax-M2.7 MiniMax | 61.49 | $1.20 |
| 10 | DeepSeek V4 Flash DeepSeek | 61.28 | $0.28 |
MiMo-V2.5-Pro 是国内 Agentic 第一(67.44),不是 Kimi K也不是 DeepSeek。 这个结果出乎很多人意料——小米在通用智能榜上排第 5,但在 Agent 任务上反超了 Kimi K2.6(65.97)和 DeepSeek V4 Pro(67.19)。 小米的模型架构可能在多步骤推理和工具调用上有特殊优化。
DeepSeek V4 Pro 排国内第二(67.19),价格却是国内第一档里最低的($3.48/M)。 比 MiMo-V2.5-Pro($3.0/M)贵 16%,比 Kimi K2.6($4.0/M)便宜 13%。 如果 Agent 任务量不大,DeepSeek V4 Pro 的"智能性价比"(Agentic/$ = 19.3)比 MiMo-V2.5-Pro(22.5)略低, 但绝对能力更强——看你要省钱还是要成功率。
DeepSeek V4 Flash 的 Agentic 61.28 只比 Pro 低 6 分,价格只有 Pro 的 1/12。 这是本页最重要的发现之一。很多做 Agent 平台的开发者默认用 Pro,其实 Flash 在大部分 Agent 场景里够用了—— 除非你的任务涉及复杂数学推理或多轮工具链编排。
SuperCLUE 智能体(任务规划) · Top 12
来源:SuperCLUE(2026年3月)。 SuperCLUE 的智能体维度测的是"给定一个复杂任务,模型能否拆解成子步骤、按正确顺序执行、处理中间异常"。 题目以中文描述为主,更能反映"用中文给 AI 派活"的实际体验。
| # | 模型 | 智能体 | 属地 |
|---|---|---|---|
| 1 | Claude-Opus-4.6(max) Anthropic | 89.35 | 🇺🇸 |
| 2 | Doubao-Seed-2.0-pro-260215(high) 字节跳动 | 81.04 | 🇨🇳 |
| 3 | GPT-5.4(xhigh) OpenAI | 80.04 | 🇺🇸 |
| 4 | Gemini-3.1-Pro-Preview(high) Google | 78.96 | 🇺🇸 |
| 5 | Kimi-K2.5-Thinking 月之暗面 | 78.44 | 🇨🇳 |
| 6 | DeepSeek-V4-Pro(max) 深度求索 | 77.49 | 🇨🇳 |
| 7 | DeepSeek-V4-Flash(max) 深度求索 | 75.28 | 🇨🇳 |
| 8 | Qwen3.5-397B-A17B-Thinking 阿里巴巴 | 71.52 | 🇨🇳 |
| 9 | LongCat-Flash-Thinking-2601 美团 | 67.94 | 🇨🇳 |
| 10 | Grok-4.20-Beta-0309(Reasoning) X.AI | 67.35 | 🇺🇸 |
| 11 | GLM-5 智谱AI | 66.64 | 🇨🇳 |
| 12 | MiniMax-M2.5 稀宇科技 | 65.64 | 🇨🇳 |
中文场景下,Claude Opus 4.6(max) 以 89.35 碾压全场, 比第二名豆包(81.04)高 8.3 分。这个差距比 AA Agentic Index 上的差距(GPT-5.5 74.12 vs Claude 71.29)大得多—— 说明不同基准对"Agent 能力"的定义和测试方法差异很大。
豆包 Doubao-Seed-2.0-pro 拿到 81.04,是国内第一、全球第二。 但豆包在 AA Agentic Index 榜上完全没有位置——和编程榜的情况一样,豆包没参加(或没被收录)AA 的评测。 如果你用中文给 AI 派复杂任务,豆包值得单独测试。它在 SuperCLUE 的智能体维度上比 Kimi K2.5 Thinking(78.44)高 2.6 分。
DeepSeek V4 Pro 和 V4 Flash 在 SuperCLUE 上双双进入前 7。 Pro 77.49、Flash 75.28,差距只有 2.2 分——再次验证 Flash 的 Agent 能力没有想象中弱。 两家深度求索模型排在国内第 3、4 名,比 Qwen3.5(71.52)和美团 LongCat(67.94)明显强。
Agentic 性价比 Top 12(按 Agentic/$ 排序)
用 AA Agentic Index 除以输出价格,得到"每花一美元能买到多少 Agent 能力"的粗略指标。做批量 Agent 任务时,这个数字比绝对分数更重要。
| # | 模型 | Agentic | 输出价 | Agentic/$ | 国 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash DeepSeek | 61.28 | $0.28 | 218.9 | 🇨🇳 |
| 2 | MiniMax-M2.7 MiniMax | 61.49 | $1.20 | 51.2 | 🇨🇳 |
| 3 | GPT-5.4 nano OpenAI | 47.60 | $1.25 | 38.1 | 🇺🇸 |
| 4 | MiMo-V2.5 Xiaomi | 65.53 | $1.80 | 36.4 | 🇨🇳 |
| 5 | Grok 4.3 xAI | 65.89 | $2.50 | 26.4 | 🇺🇸 |
| 6 | MiMo-V2.5-Pro Xiaomi | 67.44 | $3.00 | 22.5 | 🇨🇳 |
| 7 | Qwen3.6 Plus Alibaba | 61.67 | $3.00 | 20.6 | 🇨🇳 |
| 8 | GLM-5 Z AI | 63.14 | $3.20 | 19.7 | 🇨🇳 |
| 9 | DeepSeek V4 Pro DeepSeek | 67.19 | $3.48 | 19.3 | 🇨🇳 |
| 10 | Gemini 3 Flash Google | 49.66 | $3.00 | 16.6 | 🇺🇸 |
| 11 | Kimi K2.6 Kimi | 65.97 | $4.00 | 16.5 | 🇨🇳 |
| 12 | GLM-5.1 Z AI | 67.05 | $4.40 | 15.2 | 🇨🇳 |
DeepSeek V4 Flash 的 Agentic/$ 是 218.9,全场最高。 比 Coding 性价比的 138 还高出 59%。原因是 Flash 的 Agentic Index(61.28)和 Pro(67.19)只差 6 分, 但价格差了 12 倍。做批量 Agent 任务(比如自动处理工单、批量数据清洗)时,Flash 是被严重低估的选择。
性价比"甜区"在第 2-7 名(ratio 18-35)。 GPT-5.4 nano(38.1)、MiniMax-M2.7(51.2)、Grok 4.3(26.4)、MiMo-V2.5(36.4)、Qwen3.6 Plus(20.6)、GLM-5(19.7)全部聚集在这里。 Agentic 分数 47-64 已经能处理大部分日常自动化任务,单价压在 $0.28-3.2 区间。
GPT-5.5 的 Agentic/$ 只有 2.47,性价比榜垫底。 但 74.12 的绝对 Agentic 分数意味着它在复杂多步骤任务上的成功率是独一档的。 如果你的 Agent 任务涉及"先搜索、再分析、再写报告、再发邮件"这种四步以上的链路, GPT-5.5 的低性价比可能被高成功率抵消——失败一次重试的成本可能更高。
双榜交叉:AA 和 SuperCLUE 的 Agent 定义差在哪
两份榜单测的都是"Agent 能力",但结果差异很大。Claude Opus 在 SuperCLUE 排第 1(89.35),在 AA 只排第 2(71.29); GPT-5.5 在 AA 排第 1(74.12),但在 SuperCLUE 没进前 12(只录了 GPT-5.4(xhigh) 排第 3)。 差异来自测试方法:
- AA 测的是工具调用 + 环境交互。模型需要调用 API、操作终端、在沙箱环境里完成真实任务。偏"工程型 Agent"。
- SuperCLUE 测的是任务规划 + 步骤拆解。模型需要理解中文复杂指令、拆解子任务、按逻辑顺序执行。偏"规划型 Agent"。
两种能力都很重要,但场景不同。如果你的 Agent 要调用外部 API、操作数据库、写文件,看 AA Agentic Index。 如果你的 Agent 要理解模糊需求、拆步骤、按优先级排序,看 SuperCLUE 智能体维度。
SuperCLUE 前 10、但 AA 前 10 找不到同家族的模型
- Doubao-Seed-2.0-pro-260215(high)(字节跳动) · SuperCLUE 智能体 81.04 · 在 AA Agentic Top 10 里找不到对应家族
- LongCat-Flash-Thinking-2601(美团) · SuperCLUE 智能体 67.94 · 在 AA Agentic Top 10 里找不到对应家族
- MiniMax-M2.5(稀宇科技) · SuperCLUE 智能体 65.64 · 在 AA Agentic Top 10 里找不到对应家族
- Step-3.5-Flash(阶跃星辰) · SuperCLUE 智能体 64.06 · 在 AA Agentic Top 10 里找不到对应家族
这批模型有两种可能:要么是中文任务规划有专门调优(豆包、美团 LongCat 尤其典型), 要么是它们没参加 AA 那场侧重工具调用的评测。两种情况都意味着—— 只看一份榜单做不出对它们的可靠判断,部署前最好跑几个真实工作流。
AA 高、SuperCLUE 也高的"双认证"模型
两份榜都进前 10 的模型,是 Agent 能力最经得起交叉验证的: Claude Opus 4.7(AA #2 / SuperCLUE 参考分第一)、 DeepSeek V4 Pro(AA #6 / SuperCLUE 国内 #3)、 Kimi K2.6(AA #4 / SuperCLUE 国内参考分前列)。 如果你要选一个"Agent 能力已经被多源验证"的模型,这三款是最稳的。
按场景选:5 个常见 Agent 组合
看完榜单,这些坑别踩
1. "Agent 能力"不等于"能跑 Agent 框架"
榜单测的是模型自身的规划、推理、工具调用能力。但真实 Agent 系统的成功率还取决于框架质量(LangChain、AutoGen、Dify)、 prompt 工程、工具描述清晰度、错误重试策略。模型只占成功率的 30%-50%,别指望换个模型就能让烂框架起飞。
2. 轻量模型的 Agent 能力衰减比 Coding 更严重
DeepSeek V4 Flash 的 Coding Index 是 Pro 的 81.6%(38.71 vs 47.47),但 Agentic Index 是 Pro 的 91.1%(61.28 vs 67.19)。 等等,Flash 的 Agent 能力衰减反而更小?这是因为 Agent 任务里"规划"比"执行"更重要, 而规划能力对模型规模不那么敏感。但反过来,GPT-5.4 nano 的 Agentic 只有 47.6,是 GPT-5.5 的 64%—— OpenAI 的轻量模型在 Agent 维度上衰减更明显。不同厂商的轻量策略差异很大,不能一概而论。
3. 中文 Agent 任务别只看国际榜
AA 的 Agentic Index 基准是英文环境(Tau²-Bench、TerminalBench 都是英文任务描述)。 有些模型英文工具调用很强,但中文指令理解有偏差——"把文件 A 的内容合并到文件 B"这种中文描述, 模型可能理解成"比较文件 A 和 B 的差异"。SuperCLUE 的中文智能体维度就是补这个缺口的。
4. Agent 任务的成本不只是 API 费用
一个 10 步 Agent 工作流,如果第 8 步失败要回滚重来,实际 token 消耗可能是"成功路径"的 2-3 倍。 GPT-5.5 的 $30/M 输出价看着贵,但如果它的成功率比竞品高 15%,总成本可能反而更低。 算 Agent 成本时要用"任务完成成本 = API 费 × 平均尝试次数",别只看单价。
5. 榜单上的模型版本可能比你实际调用的新
AA 和 SuperCLUE 的数据都有滞后。厂商经常静默更新模型(特别是国内厂商), 同一 API endpoint 背后可能是不同版本。DeepSeek 2026 年 4 月就更新过 V4 系列, 如果你的调用代码没改但输出质量变了,很可能是后端模型换了。榜单数据是快照,不是实时监控。
方法学说明 / 这份榜不能告诉你的事
- AA Agentic Index 测的是"工程型 Agent"。包含工具调用、终端操作、数据库交互、多步骤沙箱任务。不覆盖"创意型 Agent"(比如自动写小说、生成营销方案)。
- SuperCLUE 智能体测的是"规划型 Agent"。侧重任务拆解、步骤排序、异常处理策略。和 AA 互补,但不重叠。
- SuperCLUE 国外模型不参与排名。Claude Opus 4.6 的 89.35 在官方榜单里标为"参考分",不算排名。本表按实际分数排序。
- 版本号不一致。SuperCLUE 录的是 Kimi K2.5 Thinking,AA 录的是 Kimi K2.6;SuperCLUE 有 GPT-5.4(xhigh),AA 有 GPT-5.5。同家族不同代际同时出现,结论按"家族"看。
- 推理模型按高档位计分。同一模型多种 reasoning effort 配置时,本表只取最高分那档。实际部署若用 medium 或更低,分数会下降。
- 数据 2026-05-12 抓取。Agent 能力迭代很快(GPT-5.5、Claude 4.7、Kimi K2.6 都是最近发布),本页跟着数据源每月更新。
想接下来做什么
- 看完 Agent 榜,跳到 编程能力排行 把代码维度也叠加比较。
- 选定 2-3 个候选,去 2026 Q2 选型盘点 看具体场景表现。
- 查 模型详情库 看每个模型的多源数据聚合。
- 搭一个真实 Agent 工作流跑 20 个测试 case——榜单只能帮你缩小范围,最终选型要靠实测。