2026-05-12 · 排行榜 · Agent 能力专项

LLM Agent 能力排行：任务自动化该选谁

"Agent"这个词已经被用烂了。本页说的 Agent 能力，是让模型自主完成多步骤任务的能力—— 调用工具、规划执行路径、处理中间失败、在长链路上保持上下文不丢。数据来自 AA Agentic Index（国际基准）和 SuperCLUE 智能体(任务规划)（中文场景），两份榜单独立展示。

GPT-5.5 的 Agent 能力是断档第一。 AA Agentic Index 74.12，比第二名 Claude Opus 4.7（71.29）高 2.83 分，比第三名 Gemini 3.1 Pro（59.09）高出整整 15 分。这意味着 OpenAI 在"让模型自主做事"这个维度上建立了真正的护城河——不是领先一点，是拉开一个身位。

但中文场景里，Claude 的领先优势被抹平了。 SuperCLUE 智能体任务规划榜，Claude Opus 4.6(max) 以 89.35 排第一，国内 字节豆包 Doubao-Seed-2.0-pro 拿到 81.04 排第二—— 比 GPT-5.4(xhigh) 的 80.04 还高一点。中文 prompt 下的任务规划，国内头部已经不输国际。

DeepSeek V4 Pro 的 Agent 能力被低估了。 AA Agentic 67.19 排全球第 6（国内第 2），SuperCLUE 智能体 77.49 排国内第 3。很多人只知道 DeepSeek 便宜，不知道它在长链路任务上的表现比 GLM-5（66.64）和 MiniMax-M2.5（65.64）强出一截。

Agent 性价比和 Coding 性价比是两套逻辑。 DeepSeek V4 Flash 的 Agentic/$ 高达 218.9（比 Coding/$ 的 138 还高），因为 Flash 的 Agentic Index（61.28）和 Pro（67.19）差距只有 6 分，但价格差了 12 倍。做批量 Agent 任务时，Flash 可能是被忽视的最佳选择。

AA Agentic Index 全球榜 · Top 20

来源：Artificial Analysis，抓取于 2026-05-12。Agentic Index 综合自 Tau²-Bench Telecom、TerminalBench Hard、IFBench、GDPval-AA 等公开基准，测的是模型在"多步骤任务"上的端到端成功率。

#	模型	Agentic	Intelligence	输出价 $/M	国
1	GPT-5.5 OpenAI	74.12	60.24	$30.00	🇺🇸
2	Claude Opus 4.7 Anthropic	71.29	57.28	$25.00	🇺🇸
3	MiMo-V2.5-Pro Xiaomi	67.44	53.83	$3.00	🇨🇳
4	DeepSeek V4 Pro DeepSeek	67.19	51.51	$3.48	🇨🇳
5	GLM-5.1 Z AI	67.05	51.41	$4.40	🇨🇳
6	Kimi K2.6 Kimi	65.97	53.90	$4.00	🇨🇳
7	Grok 4.3 xAI	65.89	53.20	$2.50	🇺🇸
8	MiMo-V2.5 Xiaomi	65.53	49.03	$1.80	🇨🇳
9	Qwen3.6 Max Preview Alibaba	64.83	51.81	$7.80	🇨🇳
10	GLM-5 Z AI	63.14	49.77	$3.20	🇨🇳
11	Claude Sonnet 4.6 Anthropic	63.00	51.72	$15.00	🇺🇸
12	Qwen3.6 Plus Alibaba	61.67	49.98	$3.00	🇨🇳
13	MiniMax-M2.7 MiniMax	61.49	49.62	$1.20	🇨🇳
14	DeepSeek V4 Flash DeepSeek	61.28	46.52	$0.28	🇨🇳
15	GPT-5.3 Codex OpenAI	60.54	53.56	$14.00	🇺🇸
16	Gemini 3.1 Pro Preview Google	59.09	57.18	$12.00	🇺🇸
17	GPT-5.4 mini OpenAI	58.88	48.90	$4.50	🇺🇸
18	GPT-5.4 OpenAI	58.22	47.94	$15.00	🇺🇸
19	Gemini 3 Flash Google	49.66	46.43	$3.00	🇺🇸
20	GPT-5.4 nano OpenAI	47.60	43.98	$1.25	🇺🇸

前 3 名（GPT-5.5 / Claude Opus 4.7 / MiMo-V2.5-Pro）把第 4 名（Kimi K2.6，65.97）甩开 5 分以上。 GPT-5.5 的 74.12 和 Kimi K2.6 的 65.97 之间隔了 8 分——这个差距在 Agent 任务上意味着"能搞定"和"经常出错"的区别。

一个值得注意的现象：Agentic Index 和 Intelligence Index 并不完全正相关。 GPT-5.5 两个都是第 1，但 Claude Opus 4.7 Intelligence 第 2、Agentic 也是第 2，而 Gemini 3.1 Pro Intelligence 第 3、Agentic 只排第 5。反过来，MiMo-V2.5-Pro Intelligence 第 5、Agentic 冲到第 3——小米的模型在"自主做事"上比"做题"更强。

国内厂商的 Agentic 分布很集中：Kimi K2.6（65.97）和 DeepSeek V4 Pro（67.19）在第一档， MiMo-V2.5-Pro（67.44）意外冲到第三，GLM-5.1（67.05）和 Qwen3.6 Max（64.83）紧随其后。国内 Top 5 的 Agentic 差距只有 2.6 分，比 Intelligence 上的 4.3 分更紧凑—— 说明国内厂商在 Agent 能力上的差距比通用智能更小，选谁主要看价格和生态。

AA Agentic Index 国内 Top 10

把全球榜筛出国内厂商单独看，国内"Agent 档"的内部排序和全球视角差异不大——国内头部本来就参与全球竞争。

#	模型	Agentic	输出价 $/M	速度 t/s
1	MiMo-V2.5-Pro Xiaomi	67.44	$3.00	57
2	DeepSeek V4 Pro DeepSeek	67.19	$3.48	30
3	GLM-5.1 Z AI	67.05	$4.40	57
4	Kimi K2.6 Kimi	65.97	$4.00	49
5	MiMo-V2.5 Xiaomi	65.53	$1.80	99
6	Qwen3.6 Max Preview Alibaba	64.83	$7.80	38
7	GLM-5 Z AI	63.14	$3.20	76
8	Qwen3.6 Plus Alibaba	61.67	$3.00	53
9	MiniMax-M2.7 MiniMax	61.49	$1.20	57
10	DeepSeek V4 Flash DeepSeek	61.28	$0.28	67

MiMo-V2.5-Pro 是国内 Agentic 第一（67.44），不是 Kimi K也不是 DeepSeek。 这个结果出乎很多人意料——小米在通用智能榜上排第 5，但在 Agent 任务上反超了 Kimi K2.6（65.97）和 DeepSeek V4 Pro（67.19）。小米的模型架构可能在多步骤推理和工具调用上有特殊优化。

DeepSeek V4 Pro 排国内第二（67.19），价格却是国内第一档里最低的（$3.48/M）。 比 MiMo-V2.5-Pro（$3.0/M）贵 16%，比 Kimi K2.6（$4.0/M）便宜 13%。如果 Agent 任务量不大，DeepSeek V4 Pro 的"智能性价比"（Agentic/$ = 19.3）比 MiMo-V2.5-Pro（22.5）略低，但绝对能力更强——看你要省钱还是要成功率。

DeepSeek V4 Flash 的 Agentic 61.28 只比 Pro 低 6 分，价格只有 Pro 的 1/12。 这是本页最重要的发现之一。很多做 Agent 平台的开发者默认用 Pro，其实 Flash 在大部分 Agent 场景里够用了—— 除非你的任务涉及复杂数学推理或多轮工具链编排。

SuperCLUE 智能体(任务规划) · Top 12

来源：SuperCLUE（2026年3月）。 SuperCLUE 的智能体维度测的是"给定一个复杂任务，模型能否拆解成子步骤、按正确顺序执行、处理中间异常"。题目以中文描述为主，更能反映"用中文给 AI 派活"的实际体验。

#	模型	智能体	总分	属地
1	Claude-Opus-4.6(max) Anthropic	89.35	77.0	🇺🇸
2	Doubao-Seed-2.0-pro-260215(high) 字节跳动	81.04	71.5	🇨🇳
3	GPT-5.4(xhigh) OpenAI	80.04	72.5	🇺🇸
4	Gemini-3.1-Pro-Preview(high) Google	78.96	76.7	🇺🇸
5	Kimi-K2.5-Thinking 月之暗面	78.44	64.6	🇨🇳
6	DeepSeek-V4-Pro(max) 深度求索	77.49	71.0	🇨🇳
7	DeepSeek-V4-Flash(max) 深度求索	75.28	68.8	🇨🇳
8	Qwen3.5-397B-A17B-Thinking 阿里巴巴	71.52	64.5	🇨🇳
9	LongCat-Flash-Thinking-2601 美团	67.94	57.5	🇨🇳
10	Grok-4.20-Beta-0309(Reasoning) X.AI	67.35	66.1	🇺🇸
11	GLM-5 智谱AI	66.64	64.3	🇨🇳
12	MiniMax-M2.5 稀宇科技	65.64	56.0	🇨🇳

中文场景下，Claude Opus 4.6(max) 以 89.35 碾压全场，比第二名豆包（81.04）高 8.3 分。这个差距比 AA Agentic Index 上的差距（GPT-5.5 74.12 vs Claude 71.29）大得多—— 说明不同基准对"Agent 能力"的定义和测试方法差异很大。

豆包 Doubao-Seed-2.0-pro 拿到 81.04，是国内第一、全球第二。 但豆包在 AA Agentic Index 榜上完全没有位置——和编程榜的情况一样，豆包没参加（或没被收录）AA 的评测。如果你用中文给 AI 派复杂任务，豆包值得单独测试。它在 SuperCLUE 的智能体维度上比 Kimi K2.5 Thinking（78.44）高 2.6 分。

DeepSeek V4 Pro 和 V4 Flash 在 SuperCLUE 上双双进入前 7。 Pro 77.49、Flash 75.28，差距只有 2.2 分——再次验证 Flash 的 Agent 能力没有想象中弱。两家深度求索模型排在国内第 3、4 名，比 Qwen3.5（71.52）和美团 LongCat（67.94）明显强。

Agentic 性价比 Top 12（按 Agentic/$ 排序）

用 AA Agentic Index 除以输出价格，得到"每花一美元能买到多少 Agent 能力"的粗略指标。做批量 Agent 任务时，这个数字比绝对分数更重要。

#	模型	Agentic	输出价	Agentic/$	国
1	DeepSeek V4 Flash DeepSeek	61.28	$0.28	218.9	🇨🇳
2	MiniMax-M2.7 MiniMax	61.49	$1.20	51.2	🇨🇳
3	GPT-5.4 nano OpenAI	47.60	$1.25	38.1	🇺🇸
4	MiMo-V2.5 Xiaomi	65.53	$1.80	36.4	🇨🇳
5	Grok 4.3 xAI	65.89	$2.50	26.4	🇺🇸
6	MiMo-V2.5-Pro Xiaomi	67.44	$3.00	22.5	🇨🇳
7	Qwen3.6 Plus Alibaba	61.67	$3.00	20.6	🇨🇳
8	GLM-5 Z AI	63.14	$3.20	19.7	🇨🇳
9	DeepSeek V4 Pro DeepSeek	67.19	$3.48	19.3	🇨🇳
10	Gemini 3 Flash Google	49.66	$3.00	16.6	🇺🇸
11	Kimi K2.6 Kimi	65.97	$4.00	16.5	🇨🇳
12	GLM-5.1 Z AI	67.05	$4.40	15.2	🇨🇳

DeepSeek V4 Flash 的 Agentic/$ 是 218.9，全场最高。 比 Coding 性价比的 138 还高出 59%。原因是 Flash 的 Agentic Index（61.28）和 Pro（67.19）只差 6 分，但价格差了 12 倍。做批量 Agent 任务（比如自动处理工单、批量数据清洗）时，Flash 是被严重低估的选择。

性价比"甜区"在第 2-7 名（ratio 18-35）。 GPT-5.4 nano（38.1）、MiniMax-M2.7（51.2）、Grok 4.3（26.4）、MiMo-V2.5（36.4）、Qwen3.6 Plus（20.6）、GLM-5（19.7）全部聚集在这里。 Agentic 分数 47-64 已经能处理大部分日常自动化任务，单价压在 $0.28-3.2 区间。

GPT-5.5 的 Agentic/$ 只有 2.47，性价比榜垫底。 但 74.12 的绝对 Agentic 分数意味着它在复杂多步骤任务上的成功率是独一档的。如果你的 Agent 任务涉及"先搜索、再分析、再写报告、再发邮件"这种四步以上的链路， GPT-5.5 的低性价比可能被高成功率抵消——失败一次重试的成本可能更高。

双榜交叉：AA 和 SuperCLUE 的 Agent 定义差在哪

两份榜单测的都是"Agent 能力"，但结果差异很大。Claude Opus 在 SuperCLUE 排第 1（89.35），在 AA 只排第 2（71.29）； GPT-5.5 在 AA 排第 1（74.12），但在 SuperCLUE 没进前 12（只录了 GPT-5.4(xhigh) 排第 3）。差异来自测试方法：

AA 测的是工具调用 + 环境交互。模型需要调用 API、操作终端、在沙箱环境里完成真实任务。偏"工程型 Agent"。
SuperCLUE 测的是任务规划 + 步骤拆解。模型需要理解中文复杂指令、拆解子任务、按逻辑顺序执行。偏"规划型 Agent"。

两种能力都很重要，但场景不同。如果你的 Agent 要调用外部 API、操作数据库、写文件，看 AA Agentic Index。如果你的 Agent 要理解模糊需求、拆步骤、按优先级排序，看 SuperCLUE 智能体维度。

SuperCLUE 前 10、但 AA 前 10 找不到同家族的模型

Doubao-Seed-2.0-pro-260215(high)（字节跳动） · SuperCLUE 智能体 81.04 · 在 AA Agentic Top 10 里找不到对应家族
LongCat-Flash-Thinking-2601（美团） · SuperCLUE 智能体 67.94 · 在 AA Agentic Top 10 里找不到对应家族
MiniMax-M2.5（稀宇科技） · SuperCLUE 智能体 65.64 · 在 AA Agentic Top 10 里找不到对应家族
Step-3.5-Flash（阶跃星辰） · SuperCLUE 智能体 64.06 · 在 AA Agentic Top 10 里找不到对应家族

这批模型有两种可能：要么是中文任务规划有专门调优（豆包、美团 LongCat 尤其典型），要么是它们没参加 AA 那场侧重工具调用的评测。两种情况都意味着—— 只看一份榜单做不出对它们的可靠判断，部署前最好跑几个真实工作流。

AA 高、SuperCLUE 也高的"双认证"模型

两份榜都进前 10 的模型，是 Agent 能力最经得起交叉验证的： Claude Opus 4.7（AA #2 / SuperCLUE 参考分第一）、 DeepSeek V4 Pro（AA #6 / SuperCLUE 国内 #3）、 Kimi K2.6（AA #4 / SuperCLUE 国内参考分前列）。如果你要选一个"Agent 能力已经被多源验证"的模型，这三款是最稳的。

场景

复杂多步骤工作流（搜索 → 分析 → 生成 → 发送）

链路超过 4 步、任意一步失败都要回滚。首选 GPT-5.5（$30）—— AA Agentic 74.12 是唯一过 70 的，长链路成功率明显更高。国内替代 DeepSeek V4 Pro（$3.48），SuperCLUE 任务规划 77.49 国内第三。

场景

中文任务规划 / 需求拆解 / 项目管理

用中文描述模糊需求，让模型拆任务、排优先级。首选 豆包 Doubao-Seed-2.0-pro—— SuperCLUE 智能体 81.04 国内第一。但豆包不在 AA 评测里，工程型 Agent 要单独测。备选 Kimi K2.5 Thinking（78.44）或 DeepSeek V4 Pro（77.49）。

场景

批量自动化（工单处理 / 数据清洗 / 定时任务）

量大、容错高、预算敏感。首选 DeepSeek V4 Flash（$0.28）—— Agentic/$ 218.9 全场最高，61.28 的 Agentic 分数处理简单任务够用。国际线选 GPT-5.4 nano（$1.25，Agentic/$ 38.1）或 Gemini 3 Flash（$3.0，Agentic/$ 16.6）。

场景

工具调用 + 环境交互（DevOps / 数据分析 / 自动化测试）

需要模型调用 API、执行命令、读写文件。首选 Claude Opus 4.7（$25）—— AA Agentic #2（71.29），SuperCLUE 参考分 #1（89.35），两份榜都认。国内选 MiMo-V2.5-Pro（$3.0）——AA Agentic 国内第一（67.44），工具调用表现被低估了。

场景

AI 客服 / 智能助手 / 对话式 Agent

需要自然语言理解 + 多轮对话 + 偶尔调用工具。推荐 Grok 4.3（$2.5）—— Agentic 65.89 排全球第 7，速度 94.5 t/s 够快，价格只有 Claude 的 1/10。国内 GLM-5.1（$4.4）或 Qwen3.6 Plus（$3.0）都可以， Agentic 61-67 区间，客服场景足够。

看完榜单，这些坑别踩

1. "Agent 能力"不等于"能跑 Agent 框架"

榜单测的是模型自身的规划、推理、工具调用能力。但真实 Agent 系统的成功率还取决于框架质量（LangChain、AutoGen、Dify）、 prompt 工程、工具描述清晰度、错误重试策略。模型只占成功率的 30%-50%，别指望换个模型就能让烂框架起飞。

2. 轻量模型的 Agent 能力衰减比 Coding 更严重

DeepSeek V4 Flash 的 Coding Index 是 Pro 的 81.6%（38.71 vs 47.47），但 Agentic Index 是 Pro 的 91.1%（61.28 vs 67.19）。等等，Flash 的 Agent 能力衰减反而更小？这是因为 Agent 任务里"规划"比"执行"更重要，而规划能力对模型规模不那么敏感。但反过来，GPT-5.4 nano 的 Agentic 只有 47.6，是 GPT-5.5 的 64%—— OpenAI 的轻量模型在 Agent 维度上衰减更明显。不同厂商的轻量策略差异很大，不能一概而论。

3. 中文 Agent 任务别只看国际榜

AA 的 Agentic Index 基准是英文环境（Tau²-Bench、TerminalBench 都是英文任务描述）。有些模型英文工具调用很强，但中文指令理解有偏差——"把文件 A 的内容合并到文件 B"这种中文描述，模型可能理解成"比较文件 A 和 B 的差异"。SuperCLUE 的中文智能体维度就是补这个缺口的。

4. Agent 任务的成本不只是 API 费用

一个 10 步 Agent 工作流，如果第 8 步失败要回滚重来，实际 token 消耗可能是"成功路径"的 2-3 倍。 GPT-5.5 的 $30/M 输出价看着贵，但如果它的成功率比竞品高 15%，总成本可能反而更低。算 Agent 成本时要用"任务完成成本 = API 费 × 平均尝试次数"，别只看单价。

5. 榜单上的模型版本可能比你实际调用的新

AA 和 SuperCLUE 的数据都有滞后。厂商经常静默更新模型（特别是国内厂商），同一 API endpoint 背后可能是不同版本。DeepSeek 2026 年 4 月就更新过 V4 系列，如果你的调用代码没改但输出质量变了，很可能是后端模型换了。榜单数据是快照，不是实时监控。

方法学说明 / 这份榜不能告诉你的事

AA Agentic Index 测的是"工程型 Agent"。包含工具调用、终端操作、数据库交互、多步骤沙箱任务。不覆盖"创意型 Agent"（比如自动写小说、生成营销方案）。
SuperCLUE 智能体测的是"规划型 Agent"。侧重任务拆解、步骤排序、异常处理策略。和 AA 互补，但不重叠。
SuperCLUE 国外模型不参与排名。Claude Opus 4.6 的 89.35 在官方榜单里标为"参考分"，不算排名。本表按实际分数排序。
版本号不一致。SuperCLUE 录的是 Kimi K2.5 Thinking，AA 录的是 Kimi K2.6；SuperCLUE 有 GPT-5.4(xhigh)，AA 有 GPT-5.5。同家族不同代际同时出现，结论按"家族"看。
推理模型按高档位计分。同一模型多种 reasoning effort 配置时，本表只取最高分那档。实际部署若用 medium 或更低，分数会下降。
数据 2026-05-12 抓取。Agent 能力迭代很快（GPT-5.5、Claude 4.7、Kimi K2.6 都是最近发布），本页跟着数据源每月更新。

想接下来做什么

看完 Agent 榜，跳到编程能力排行把代码维度也叠加比较。
选定 2-3 个候选，去 2026 Q2 选型盘点看具体场景表现。
查模型详情库看每个模型的多源数据聚合。
搭一个真实 Agent 工作流跑 20 个测试 case——榜单只能帮你缩小范围，最终选型要靠实测。