2026-05-12 · 排行榜 · Agent 能力专项

LLM Agent 能力排行:任务自动化该选谁

"Agent"这个词已经被用烂了。本页说的 Agent 能力,是让模型自主完成多步骤任务的能力—— 调用工具、规划执行路径、处理中间失败、在长链路上保持上下文不丢。 数据来自 AA Agentic Index(国际基准)和 SuperCLUE 智能体(任务规划)(中文场景),两份榜单独立展示。

GPT-5.5 的 Agent 能力是断档第一。 AA Agentic Index 74.12,比第二名 Claude Opus 4.7(71.29)高 2.83 分,比第三名 Gemini 3.1 Pro(59.09)高出整整 15 分。 这意味着 OpenAI 在"让模型自主做事"这个维度上建立了真正的护城河——不是领先一点,是拉开一个身位。

但中文场景里,Claude 的领先优势被抹平了。 SuperCLUE 智能体任务规划榜,Claude Opus 4.6(max) 以 89.35 排第一, 国内 字节豆包 Doubao-Seed-2.0-pro 拿到 81.04 排第二—— 比 GPT-5.4(xhigh) 的 80.04 还高一点。中文 prompt 下的任务规划,国内头部已经不输国际。

DeepSeek V4 Pro 的 Agent 能力被低估了。 AA Agentic 67.19 排全球第 6(国内第 2),SuperCLUE 智能体 77.49 排国内第 3。 很多人只知道 DeepSeek 便宜,不知道它在长链路任务上的表现比 GLM-5(66.64)和 MiniMax-M2.5(65.64)强出一截。

Agent 性价比和 Coding 性价比是两套逻辑。 DeepSeek V4 Flash 的 Agentic/$ 高达 218.9(比 Coding/$ 的 138 还高), 因为 Flash 的 Agentic Index(61.28)和 Pro(67.19)差距只有 6 分,但价格差了 12 倍。 做批量 Agent 任务时,Flash 可能是被忽视的最佳选择。

AA Agentic Index 全球榜 · Top 20

来源:Artificial Analysis, 抓取于 2026-05-12。Agentic Index 综合自 Tau²-Bench Telecom、TerminalBench Hard、IFBench、GDPval-AA 等公开基准, 测的是模型在"多步骤任务"上的端到端成功率。

# 模型 Agentic 输出价 $/M
1 GPT-5.5
OpenAI
74.12 $30.00 🇺🇸
2 Claude Opus 4.7
Anthropic
71.29 $25.00 🇺🇸
3 MiMo-V2.5-Pro
Xiaomi
67.44 $3.00 🇨🇳
4 DeepSeek V4 Pro
DeepSeek
67.19 $3.48 🇨🇳
5 GLM-5.1
Z AI
67.05 $4.40 🇨🇳
6 Kimi K2.6
Kimi
65.97 $4.00 🇨🇳
7 Grok 4.3
xAI
65.89 $2.50 🇺🇸
8 MiMo-V2.5
Xiaomi
65.53 $1.80 🇨🇳
9 Qwen3.6 Max Preview
Alibaba
64.83 $7.80 🇨🇳
10 GLM-5
Z AI
63.14 $3.20 🇨🇳
11 Claude Sonnet 4.6
Anthropic
63.00 $15.00 🇺🇸
12 Qwen3.6 Plus
Alibaba
61.67 $3.00 🇨🇳
13 MiniMax-M2.7
MiniMax
61.49 $1.20 🇨🇳
14 DeepSeek V4 Flash
DeepSeek
61.28 $0.28 🇨🇳
15 GPT-5.3 Codex
OpenAI
60.54 $14.00 🇺🇸
16 Gemini 3.1 Pro Preview
Google
59.09 $12.00 🇺🇸
17 GPT-5.4 mini
OpenAI
58.88 $4.50 🇺🇸
18 GPT-5.4
OpenAI
58.22 $15.00 🇺🇸
19 Gemini 3 Flash
Google
49.66 $3.00 🇺🇸
20 GPT-5.4 nano
OpenAI
47.60 $1.25 🇺🇸

前 3 名(GPT-5.5 / Claude Opus 4.7 / MiMo-V2.5-Pro)把第 4 名(Kimi K2.6,65.97)甩开 5 分以上。 GPT-5.5 的 74.12 和 Kimi K2.6 的 65.97 之间隔了 8 分——这个差距在 Agent 任务上意味着"能搞定"和"经常出错"的区别。

一个值得注意的现象:Agentic Index 和 Intelligence Index 并不完全正相关。 GPT-5.5 两个都是第 1,但 Claude Opus 4.7 Intelligence 第 2、Agentic 也是第 2,而 Gemini 3.1 Pro Intelligence 第 3、Agentic 只排第 5。 反过来,MiMo-V2.5-Pro Intelligence 第 5、Agentic 冲到第 3——小米的模型在"自主做事"上比"做题"更强。

国内厂商的 Agentic 分布很集中:Kimi K2.6(65.97)和 DeepSeek V4 Pro(67.19)在第一档, MiMo-V2.5-Pro(67.44)意外冲到第三,GLM-5.1(67.05)和 Qwen3.6 Max(64.83)紧随其后。 国内 Top 5 的 Agentic 差距只有 2.6 分,比 Intelligence 上的 4.3 分更紧凑—— 说明国内厂商在 Agent 能力上的差距比通用智能更小,选谁主要看价格和生态。

AA Agentic Index 国内 Top 10

把全球榜筛出国内厂商单独看,国内"Agent 档"的内部排序和全球视角差异不大——国内头部本来就参与全球竞争。

# 模型 Agentic 输出价 $/M
1 MiMo-V2.5-Pro
Xiaomi
67.44 $3.00
2 DeepSeek V4 Pro
DeepSeek
67.19 $3.48
3 GLM-5.1
Z AI
67.05 $4.40
4 Kimi K2.6
Kimi
65.97 $4.00
5 MiMo-V2.5
Xiaomi
65.53 $1.80
6 Qwen3.6 Max Preview
Alibaba
64.83 $7.80
7 GLM-5
Z AI
63.14 $3.20
8 Qwen3.6 Plus
Alibaba
61.67 $3.00
9 MiniMax-M2.7
MiniMax
61.49 $1.20
10 DeepSeek V4 Flash
DeepSeek
61.28 $0.28

MiMo-V2.5-Pro 是国内 Agentic 第一(67.44),不是 Kimi K也不是 DeepSeek。 这个结果出乎很多人意料——小米在通用智能榜上排第 5,但在 Agent 任务上反超了 Kimi K2.6(65.97)和 DeepSeek V4 Pro(67.19)。 小米的模型架构可能在多步骤推理和工具调用上有特殊优化。

DeepSeek V4 Pro 排国内第二(67.19),价格却是国内第一档里最低的($3.48/M)。 比 MiMo-V2.5-Pro($3.0/M)贵 16%,比 Kimi K2.6($4.0/M)便宜 13%。 如果 Agent 任务量不大,DeepSeek V4 Pro 的"智能性价比"(Agentic/$ = 19.3)比 MiMo-V2.5-Pro(22.5)略低, 但绝对能力更强——看你要省钱还是要成功率。

DeepSeek V4 Flash 的 Agentic 61.28 只比 Pro 低 6 分,价格只有 Pro 的 1/12。 这是本页最重要的发现之一。很多做 Agent 平台的开发者默认用 Pro,其实 Flash 在大部分 Agent 场景里够用了—— 除非你的任务涉及复杂数学推理或多轮工具链编排。

SuperCLUE 智能体(任务规划) · Top 12

来源:SuperCLUE(2026年3月)。 SuperCLUE 的智能体维度测的是"给定一个复杂任务,模型能否拆解成子步骤、按正确顺序执行、处理中间异常"。 题目以中文描述为主,更能反映"用中文给 AI 派活"的实际体验。

# 模型 智能体 属地
1 Claude-Opus-4.6(max)
Anthropic
89.35 🇺🇸
2 Doubao-Seed-2.0-pro-260215(high)
字节跳动
81.04 🇨🇳
3 GPT-5.4(xhigh)
OpenAI
80.04 🇺🇸
4 Gemini-3.1-Pro-Preview(high)
Google
78.96 🇺🇸
5 Kimi-K2.5-Thinking
月之暗面
78.44 🇨🇳
6 DeepSeek-V4-Pro(max)
深度求索
77.49 🇨🇳
7 DeepSeek-V4-Flash(max)
深度求索
75.28 🇨🇳
8 Qwen3.5-397B-A17B-Thinking
阿里巴巴
71.52 🇨🇳
9 LongCat-Flash-Thinking-2601
美团
67.94 🇨🇳
10 Grok-4.20-Beta-0309(Reasoning)
X.AI
67.35 🇺🇸
11 GLM-5
智谱AI
66.64 🇨🇳
12 MiniMax-M2.5
稀宇科技
65.64 🇨🇳

中文场景下,Claude Opus 4.6(max) 以 89.35 碾压全场, 比第二名豆包(81.04)高 8.3 分。这个差距比 AA Agentic Index 上的差距(GPT-5.5 74.12 vs Claude 71.29)大得多—— 说明不同基准对"Agent 能力"的定义和测试方法差异很大。

豆包 Doubao-Seed-2.0-pro 拿到 81.04,是国内第一、全球第二。 但豆包在 AA Agentic Index 榜上完全没有位置——和编程榜的情况一样,豆包没参加(或没被收录)AA 的评测。 如果你用中文给 AI 派复杂任务,豆包值得单独测试。它在 SuperCLUE 的智能体维度上比 Kimi K2.5 Thinking(78.44)高 2.6 分。

DeepSeek V4 Pro 和 V4 Flash 在 SuperCLUE 上双双进入前 7。 Pro 77.49、Flash 75.28,差距只有 2.2 分——再次验证 Flash 的 Agent 能力没有想象中弱。 两家深度求索模型排在国内第 3、4 名,比 Qwen3.5(71.52)和美团 LongCat(67.94)明显强。

Agentic 性价比 Top 12(按 Agentic/$ 排序)

用 AA Agentic Index 除以输出价格,得到"每花一美元能买到多少 Agent 能力"的粗略指标。做批量 Agent 任务时,这个数字比绝对分数更重要。

# 模型 Agentic 输出价 Agentic/$
1 DeepSeek V4 Flash
DeepSeek
61.28 $0.28 218.9 🇨🇳
2 MiniMax-M2.7
MiniMax
61.49 $1.20 51.2 🇨🇳
3 GPT-5.4 nano
OpenAI
47.60 $1.25 38.1 🇺🇸
4 MiMo-V2.5
Xiaomi
65.53 $1.80 36.4 🇨🇳
5 Grok 4.3
xAI
65.89 $2.50 26.4 🇺🇸
6 MiMo-V2.5-Pro
Xiaomi
67.44 $3.00 22.5 🇨🇳
7 Qwen3.6 Plus
Alibaba
61.67 $3.00 20.6 🇨🇳
8 GLM-5
Z AI
63.14 $3.20 19.7 🇨🇳
9 DeepSeek V4 Pro
DeepSeek
67.19 $3.48 19.3 🇨🇳
10 Gemini 3 Flash
Google
49.66 $3.00 16.6 🇺🇸
11 Kimi K2.6
Kimi
65.97 $4.00 16.5 🇨🇳
12 GLM-5.1
Z AI
67.05 $4.40 15.2 🇨🇳

DeepSeek V4 Flash 的 Agentic/$ 是 218.9,全场最高。 比 Coding 性价比的 138 还高出 59%。原因是 Flash 的 Agentic Index(61.28)和 Pro(67.19)只差 6 分, 但价格差了 12 倍。做批量 Agent 任务(比如自动处理工单、批量数据清洗)时,Flash 是被严重低估的选择。

性价比"甜区"在第 2-7 名(ratio 18-35)。 GPT-5.4 nano(38.1)、MiniMax-M2.7(51.2)、Grok 4.3(26.4)、MiMo-V2.5(36.4)、Qwen3.6 Plus(20.6)、GLM-5(19.7)全部聚集在这里。 Agentic 分数 47-64 已经能处理大部分日常自动化任务,单价压在 $0.28-3.2 区间。

GPT-5.5 的 Agentic/$ 只有 2.47,性价比榜垫底。 但 74.12 的绝对 Agentic 分数意味着它在复杂多步骤任务上的成功率是独一档的。 如果你的 Agent 任务涉及"先搜索、再分析、再写报告、再发邮件"这种四步以上的链路, GPT-5.5 的低性价比可能被高成功率抵消——失败一次重试的成本可能更高。

双榜交叉:AA 和 SuperCLUE 的 Agent 定义差在哪

两份榜单测的都是"Agent 能力",但结果差异很大。Claude Opus 在 SuperCLUE 排第 1(89.35),在 AA 只排第 2(71.29); GPT-5.5 在 AA 排第 1(74.12),但在 SuperCLUE 没进前 12(只录了 GPT-5.4(xhigh) 排第 3)。 差异来自测试方法:

  • AA 测的是工具调用 + 环境交互。模型需要调用 API、操作终端、在沙箱环境里完成真实任务。偏"工程型 Agent"。
  • SuperCLUE 测的是任务规划 + 步骤拆解。模型需要理解中文复杂指令、拆解子任务、按逻辑顺序执行。偏"规划型 Agent"。

两种能力都很重要,但场景不同。如果你的 Agent 要调用外部 API、操作数据库、写文件,看 AA Agentic Index。 如果你的 Agent 要理解模糊需求、拆步骤、按优先级排序,看 SuperCLUE 智能体维度。

SuperCLUE 前 10、但 AA 前 10 找不到同家族的模型

  • Doubao-Seed-2.0-pro-260215(high)(字节跳动) · SuperCLUE 智能体 81.04 · 在 AA Agentic Top 10 里找不到对应家族
  • LongCat-Flash-Thinking-2601(美团) · SuperCLUE 智能体 67.94 · 在 AA Agentic Top 10 里找不到对应家族
  • MiniMax-M2.5(稀宇科技) · SuperCLUE 智能体 65.64 · 在 AA Agentic Top 10 里找不到对应家族
  • Step-3.5-Flash(阶跃星辰) · SuperCLUE 智能体 64.06 · 在 AA Agentic Top 10 里找不到对应家族

这批模型有两种可能:要么是中文任务规划有专门调优(豆包、美团 LongCat 尤其典型), 要么是它们没参加 AA 那场侧重工具调用的评测。两种情况都意味着—— 只看一份榜单做不出对它们的可靠判断,部署前最好跑几个真实工作流。

AA 高、SuperCLUE 也高的"双认证"模型

两份榜都进前 10 的模型,是 Agent 能力最经得起交叉验证的: Claude Opus 4.7(AA #2 / SuperCLUE 参考分第一)、 DeepSeek V4 Pro(AA #6 / SuperCLUE 国内 #3)、 Kimi K2.6(AA #4 / SuperCLUE 国内参考分前列)。 如果你要选一个"Agent 能力已经被多源验证"的模型,这三款是最稳的。

按场景选:5 个常见 Agent 组合

场景
复杂多步骤工作流(搜索 → 分析 → 生成 → 发送)
链路超过 4 步、任意一步失败都要回滚。首选 GPT-5.5($30)—— AA Agentic 74.12 是唯一过 70 的,长链路成功率明显更高。 国内替代 DeepSeek V4 Pro($3.48),SuperCLUE 任务规划 77.49 国内第三。
场景
中文任务规划 / 需求拆解 / 项目管理
用中文描述模糊需求,让模型拆任务、排优先级。首选 豆包 Doubao-Seed-2.0-pro—— SuperCLUE 智能体 81.04 国内第一。但豆包不在 AA 评测里,工程型 Agent 要单独测。 备选 Kimi K2.5 Thinking(78.44)或 DeepSeek V4 Pro(77.49)。
场景
批量自动化(工单处理 / 数据清洗 / 定时任务)
量大、容错高、预算敏感。首选 DeepSeek V4 Flash($0.28)—— Agentic/$ 218.9 全场最高,61.28 的 Agentic 分数处理简单任务够用。 国际线选 GPT-5.4 nano($1.25,Agentic/$ 38.1)或 Gemini 3 Flash($3.0,Agentic/$ 16.6)。
场景
工具调用 + 环境交互(DevOps / 数据分析 / 自动化测试)
需要模型调用 API、执行命令、读写文件。首选 Claude Opus 4.7($25)—— AA Agentic #2(71.29),SuperCLUE 参考分 #1(89.35),两份榜都认。 国内选 MiMo-V2.5-Pro($3.0)——AA Agentic 国内第一(67.44), 工具调用表现被低估了。
场景
AI 客服 / 智能助手 / 对话式 Agent
需要自然语言理解 + 多轮对话 + 偶尔调用工具。推荐 Grok 4.3($2.5)—— Agentic 65.89 排全球第 7,速度 94.5 t/s 够快,价格只有 Claude 的 1/10。 国内 GLM-5.1($4.4)或 Qwen3.6 Plus($3.0)都可以, Agentic 61-67 区间,客服场景足够。

看完榜单,这些坑别踩

1. "Agent 能力"不等于"能跑 Agent 框架"

榜单测的是模型自身的规划、推理、工具调用能力。但真实 Agent 系统的成功率还取决于框架质量(LangChain、AutoGen、Dify)、 prompt 工程、工具描述清晰度、错误重试策略。模型只占成功率的 30%-50%,别指望换个模型就能让烂框架起飞。

2. 轻量模型的 Agent 能力衰减比 Coding 更严重

DeepSeek V4 Flash 的 Coding Index 是 Pro 的 81.6%(38.71 vs 47.47),但 Agentic Index 是 Pro 的 91.1%(61.28 vs 67.19)。 等等,Flash 的 Agent 能力衰减反而更小?这是因为 Agent 任务里"规划"比"执行"更重要, 而规划能力对模型规模不那么敏感。但反过来,GPT-5.4 nano 的 Agentic 只有 47.6,是 GPT-5.5 的 64%—— OpenAI 的轻量模型在 Agent 维度上衰减更明显。不同厂商的轻量策略差异很大,不能一概而论。

3. 中文 Agent 任务别只看国际榜

AA 的 Agentic Index 基准是英文环境(Tau²-Bench、TerminalBench 都是英文任务描述)。 有些模型英文工具调用很强,但中文指令理解有偏差——"把文件 A 的内容合并到文件 B"这种中文描述, 模型可能理解成"比较文件 A 和 B 的差异"。SuperCLUE 的中文智能体维度就是补这个缺口的。

4. Agent 任务的成本不只是 API 费用

一个 10 步 Agent 工作流,如果第 8 步失败要回滚重来,实际 token 消耗可能是"成功路径"的 2-3 倍。 GPT-5.5 的 $30/M 输出价看着贵,但如果它的成功率比竞品高 15%,总成本可能反而更低。 算 Agent 成本时要用"任务完成成本 = API 费 × 平均尝试次数",别只看单价。

5. 榜单上的模型版本可能比你实际调用的新

AA 和 SuperCLUE 的数据都有滞后。厂商经常静默更新模型(特别是国内厂商), 同一 API endpoint 背后可能是不同版本。DeepSeek 2026 年 4 月就更新过 V4 系列, 如果你的调用代码没改但输出质量变了,很可能是后端模型换了。榜单数据是快照,不是实时监控。

方法学说明 / 这份榜不能告诉你的事

  • AA Agentic Index 测的是"工程型 Agent"。包含工具调用、终端操作、数据库交互、多步骤沙箱任务。不覆盖"创意型 Agent"(比如自动写小说、生成营销方案)。
  • SuperCLUE 智能体测的是"规划型 Agent"。侧重任务拆解、步骤排序、异常处理策略。和 AA 互补,但不重叠。
  • SuperCLUE 国外模型不参与排名。Claude Opus 4.6 的 89.35 在官方榜单里标为"参考分",不算排名。本表按实际分数排序。
  • 版本号不一致。SuperCLUE 录的是 Kimi K2.5 Thinking,AA 录的是 Kimi K2.6;SuperCLUE 有 GPT-5.4(xhigh),AA 有 GPT-5.5。同家族不同代际同时出现,结论按"家族"看。
  • 推理模型按高档位计分。同一模型多种 reasoning effort 配置时,本表只取最高分那档。实际部署若用 medium 或更低,分数会下降。
  • 数据 2026-05-12 抓取。Agent 能力迭代很快(GPT-5.5、Claude 4.7、Kimi K2.6 都是最近发布),本页跟着数据源每月更新。

想接下来做什么

  1. 看完 Agent 榜,跳到 编程能力排行 把代码维度也叠加比较。
  2. 选定 2-3 个候选,去 2026 Q2 选型盘点 看具体场景表现。
  3. 模型详情库 看每个模型的多源数据聚合。
  4. 搭一个真实 Agent 工作流跑 20 个测试 case——榜单只能帮你缩小范围,最终选型要靠实测。

相关阅读