2026-05-13 · 排行榜 · 编程能力专项

LLM 编程能力排行:三份独立榜单交叉看

AA Coding Index(国际做题基准)、SuperCLUE 代码生成(中文场景)、LMArena WebDev(前端人类偏好) 三份独立榜单并列展示。它们对同一个模型的判断经常差几位—— 这恰恰是需要看三份榜的理由。

做题(AA):前 6 名清一色国际厂商(OpenAI 4 款、Anthropic 2 款、Google 1 款), 国内最强 DeepSeek V4 Pro 排第 7,落后榜首 GPT-5.5 共 11.65 分, 但便宜 8.6 倍($3.48 vs $30 输出价/M)。

中文(SuperCLUE):字节豆包在 AA 几乎看不见, SuperCLUE 中文代码却拿到 63.93 排第 5,超越所有国内同行——中文场景优化值得单独跟踪。

前端体验(WebDev):Claude 系列占前 6 里的 5 席, GLM-5.1 冲到第 5 夹在 Claude 旗舰之间,但 AA Coding 只排第 14—— 前端工程能力被做题分数严重低估。

性价比:DeepSeek V4 Flash 单位美元买到的 Coding Index 是榜首的 70 倍——但 38.71 的绝对分数只够辅助补全,写复杂代码还是要往上选。

AA Coding Index 全球榜 · Top 20

来源:Artificial Analysis, 抓取于 2026-05-12。Coding Index 综合自 SciCode、TerminalBench Hard、GDPval-AA 等公开编程基准, 推理模型按"开 reasoning"档位计分。

# 模型 Coding 输出价 $/M
1 GPT-5.5
OpenAI
59.12 $30.00 🇺🇸
2 Gemini 3.1 Pro Preview
Google
55.50 $12.00 🇺🇸
3 GPT-5.3 Codex
OpenAI
53.10 $14.00 🇺🇸
4 Claude Opus 4.7
Anthropic
52.51 $25.00 🇺🇸
5 GPT-5.4 mini
OpenAI
51.48 $4.50 🇺🇸
6 Claude Sonnet 4.6
Anthropic
50.94 $15.00 🇺🇸
7 DeepSeek V4 Pro
DeepSeek
47.47 $3.48 🇨🇳
8 Kimi K2.6
Kimi
47.12 $4.00 🇨🇳
9 GPT-5.4
OpenAI
45.57 $15.00 🇺🇸
10 MiMo-V2.5-Pro
Xiaomi
45.53 $3.00 🇨🇳
11 Qwen3.6 Max Preview
Alibaba
44.92 $7.80 🇨🇳
12 GLM-5
Z AI
44.18 $3.20 🇨🇳
13 GPT-5.4 nano
OpenAI
43.91 $1.25 🇺🇸
14 GLM-5.1
Z AI
43.37 $4.40 🇨🇳
15 Qwen3.6 Plus
Alibaba
42.87 $3.00 🇨🇳
16 Gemini 3 Flash
Google
42.62 $3.00 🇺🇸
17 MiMo-V2.5
Xiaomi
42.13 $1.80 🇨🇳
18 MiniMax-M2.7
MiniMax
41.93 $1.20 🇨🇳
19 Grok 4.3
xAI
41.03 $2.50 🇺🇸
20 DeepSeek V4 Flash
DeepSeek
38.71 $0.28 🇨🇳

榜首到第 6 名清一色美国厂商,国内第一档(DeepSeek V4 Pro / Kimi K2.6)跟前 6 还差 4-12 分。 这个差距在 Intelligence Index 上是 6-9 分——编程能力上的差距比通用能力差距更大, 国内厂商在数学推理、长上下文这些维度追得很快,唯独 coding 单项一直是国际厂商的护城河。

但价格差距把这件事拉平了:DeepSeek V4 Pro 用 $3.48 拿到 47.47 分,单位美元 13.6 分;GPT-5.5 用 $30 拿到 59.12 分, 单位美元 2.0 分。跑量场景多花 8 倍钱去买多 12 分智能未必划算——见下面的性价比表。

AA Coding Index 国内 Top 10

把上面的全球榜筛出国内厂商单独看,国内"编程档"的内部排序一目了然。

# 模型 Coding 输出价 $/M
1 DeepSeek V4 Pro
DeepSeek
47.47 $3.48
2 Kimi K2.6
Kimi
47.12 $4.00
3 MiMo-V2.5-Pro
Xiaomi
45.53 $3.00
4 Qwen3.6 Max Preview
Alibaba
44.92 $7.80
5 GLM-5
Z AI
44.18 $3.20
6 GLM-5.1
Z AI
43.37 $4.40
7 Qwen3.6 Plus
Alibaba
42.87 $3.00
8 MiMo-V2.5
Xiaomi
42.13 $1.80
9 MiniMax-M2.7
MiniMax
41.93 $1.20
10 DeepSeek V4 Flash
DeepSeek
38.71 $0.28

DeepSeek V4 Pro 在国际通用代码基准上稳坐国内第一,Kimi K2.6 紧随其后只差 0.35 分—— 这两家是"严肃代码工作流"的国内首选。第二档 MiMo-V2.5-Pro / Qwen3.6 Max / GLM-5 三家在 43-46 分扎堆, 差距小到选谁主要看接入便利度和定价。

注意 DeepSeek V4 Flash 排在最末(38.71), 但 $0.28 的价格让它成为"批量代码补全、AI IDE 上下文助手"这种容错任务的极致性价比选择—— 只是别拿它写支付网关那种关键模块。

SuperCLUE 中文代码生成 · Top 12

来源:SuperCLUE(2026年3月)。 SuperCLUE 是中文场景测评,题目以中文 prompt + 中文需求描述为主,更能反映"用中文跟模型对话、让它写代码"的实际体验。

# 模型 代码生成 属地
1 Claude-Opus-4.6(max)
Anthropic
71.15 🇺🇸
2 Gemini-3.1-Pro-Preview(high)
Google
69.78 🇺🇸
3 Kimi-K2.5-Thinking
月之暗面
65.50 🇨🇳
4 Gemini-3-Flash-Preview(high)
Google
63.94 🇺🇸
5 Doubao-Seed-2.0-pro-260215(high)
字节跳动
63.93 🇨🇳
6 DeepSeek-V4-Pro(max)
深度求索
63.24 🇨🇳
7 DeepSeek-V4-Flash(max)
深度求索
61.43 🇨🇳
8 DeepSeek-V3.2-Thinking
深度求索
60.43 🇨🇳
9 MiMo-V2-Pro
小米集团
59.61 🇨🇳
10 MiniMax-M2.7
稀宇科技
58.74 🇨🇳
11 GLM-5
智谱AI
58.32 🇨🇳
12 Tencent HY 2.0 Think
腾讯
57.58 🇨🇳

中文场景下,国际厂商的优势从 AA 的 12 分缩小到 SuperCLUE 的 5-8 分—— Claude Opus 4.6(max)拿到 71.15 排第 1,Gemini 3.1 Pro 第 2(69.78), 国内 Kimi K2.5 Thinking(65.50)顶到第 3,比国际第二名只差 4.3 分。

一个反直觉的发现:字节豆包 Doubao-Seed-2.0-pro 在 SuperCLUE 中文代码拿 63.93, 但 AA Coding 榜上完全没有它的位置——豆包不在 Artificial Analysis 评测列表里。 这不是豆包国际差,是豆包没参加(或没被收录)那场考试。 想用中文写代码、考虑豆包的,要专门看 SuperCLUE 这份榜。

LMArena WebDev Arena · 前端开发人类偏好 Top 10

来源:LMArena, 抓取于 2026-05-12。WebDev Arena 让真人盲测对比两个模型生成的网页前端代码, 用 Elo 系统算分——测的是"人类觉得哪个代码效果更好",不是做题。

# 模型 WebDev Elo 差异
1 claude-opus-4-7 (thinking)
claude
1570 AA 无数据
2 claude-opus-4-7
claude
1560 AA 无数据
3 claude-opus-4-6 (thinking)
claude
1549 AA 无数据
4 claude-opus-4-6
claude
1544 AA 无数据
5 glm-5.1
glm
1531
6 claude-sonnet-4-6
claude
1524 AA 无数据
7 kimi-k2.6
kimi
1523
8 muse-spark
muse
1509 AA 无数据
9 gpt-5.5-high
gpt
1491 AA 更强
10 claude-opus-4-5-20251101 (thinking)
claude
1490 AA 无数据

Claude 系列在 WebDev 上的统治力比 AA Coding 更强。 Opus 4.7 占前 2 名,Opus 4.6 占第 3-4 名,Sonnet 4.6 第 6—— 前 6 名里有 5 个是 Claude。这说明 Anthropic 的模型在"生成人类觉得好看、好用的前端页面"这个维度上, 优势比单纯"做题"更大。

GLM-5.1 是 WebDev 里最大的黑马。 它在 AA Coding 只排第 14(43.37 分),但在 WebDev 冲到第 5 名(1531 Elo), 夹在 Claude Opus 4.6 和 Sonnet 4.6 之间。智谱的前端工程能力被做题分数严重低估了—— 如果你用 GLM 写网页、做可视化,实际体验可能比 43.37 这个数字暗示的要好得多。

GPT-5.5 的做题分数和前端体验倒挂。 AA Coding 全球第 1(59.12),WebDev 只排第 9(1491)。 不是 GPT-5.5 前端差,是 Claude 系列在前端这个场景的人类偏好上拉开了差距。 如果你要"生成一个 landing page"或者"把 Figma 设计稿转成代码", Claude Opus 4.7 的盲测胜率比 GPT-5.5 高得多。

Meta muse-spark 在 AA 没有 Coding 数据。 WebDev 第 8 名(1509),但 Artificial Analysis 没给它跑 Coding Index—— 又一个"榜单覆盖不全面"的案例。选模型时如果只看单一数据源,很容易漏掉这种"某维度很强但没被测"的候选。

编程性价比 Top 12(按 Coding/$ 排序)

用 AA Coding Index 除以输出价格,得到"每花一美元能买到多少编程智能"的粗略指标。这只代表跑量场景的成本视角,绝对分数仍要看上面的全球榜。

# 模型 Coding 输出价 Coding/$
1 DeepSeek V4 Flash
DeepSeek
38.71 $0.28 138.3 🇨🇳
2 GPT-5.4 nano
OpenAI
43.91 $1.25 35.1 🇺🇸
3 MiniMax-M2.7
MiniMax
41.93 $1.20 34.9 🇨🇳
4 MiMo-V2.5
Xiaomi
42.13 $1.80 23.4 🇨🇳
5 Grok 4.3
xAI
41.03 $2.50 16.4 🇺🇸
6 MiMo-V2.5-Pro
Xiaomi
45.53 $3.00 15.2 🇨🇳
7 Qwen3.6 Plus
Alibaba
42.87 $3.00 14.3 🇨🇳
8 Gemini 3 Flash
Google
42.62 $3.00 14.2 🇺🇸
9 GLM-5
Z AI
44.18 $3.20 13.8 🇨🇳
10 DeepSeek V4 Pro
DeepSeek
47.47 $3.48 13.6 🇨🇳
11 Kimi K2.6
Kimi
47.12 $4.00 11.8 🇨🇳
12 GPT-5.4 mini
OpenAI
51.48 $4.50 11.4 🇺🇸

排第 1 的 DeepSeek V4 Flash 是数量级的极端值(138 分/$,是第 2 名的 4 倍), 但 38.71 的绝对 coding 分数偏低——写算法题、复杂业务逻辑会感到力不从心。 它真正合适的场景是:高频率代码补全、注释生成、单元测试样板这种"格式重于聪明"的事。

性价比"甜区"在第 2-7 名(ratio 14-35):GPT-5.4 nanoMiniMax-M2.7MiMo-V2.5 / V2.5-ProQwen3.6 PlusGemini 3 FlashGLM-5 全部聚集在这里。 coding 分数 42-44 已经够日常开发用,价格压在 $1.20-3.20 区间,月跑几亿 token 也烧不掉多少。

榜上完全看不到 Claude Opus 4.7Claude Sonnet 4.6—— 它们在 LMArena WebDev 榜(真人偏好测代码体验)常年前列,但 AA Coding Index 是"做题"维度, Claude 系列在做题维度的性价比一直不如它在"长链路代码工程"里的实际表现。 如果你做的是真实工程而不是算法竞赛,Claude 系列值得单独评估,别只看这张表。

三榜对照:哪个维度最利好你的场景

三份榜单测的不是一回事:AA 是英文做题,SuperCLUE 是中文实战,WebDev 是前端人类偏好。 同一个模型在三份榜上的相对位置不同,差异越大说明它越偏科。

SuperCLUE 中文代码前 10、AA 前 10 看不见

  • Doubao-Seed-2.0-pro-260215(high)(字节跳动) · SuperCLUE 代码 63.93 · 在 AA Coding Top 10 里找不到对应家族
  • MiniMax-M2.7(稀宇科技) · SuperCLUE 代码 58.74 · 在 AA Coding Top 10 里找不到对应家族
  • GLM-5(智谱AI) · SuperCLUE 代码 58.32 · 在 AA Coding Top 10 里找不到对应家族
  • Tencent HY 2.0 Think(腾讯) · SuperCLUE 代码 57.58 · 在 AA Coding Top 10 里找不到对应家族
  • MiniMax-M2.5(稀宇科技) · SuperCLUE 代码 55.33 · 在 AA Coding Top 10 里找不到对应家族

这批模型有两种可能:要么是国内厂商专门针对中文 prompt 调优、在中文场景下确有特长(豆包、腾讯混元尤其典型); 要么是它们干脆没参加 AA 那场考试。两种情况都意味着—— 只看一份榜单做不出对它们的可靠判断,跨场景使用前最好自己跑一两个真实需求。

AA 国际榜前列、SuperCLUE 中文榜断档

GPT-5.5GPT-5.3 CodexGPT-5.4 mini 都在 AA Coding 全球前 6, 但 SuperCLUE 这一期的榜里 GPT-5 系列只录了 GPT-5.4(xhigh)(中文代码 52.05,整张代码榜第 17), 比 Claude / Gemini 在中文场景里落了一截。OpenAI 在中文 prompt 的指令遵循上一直不如 Anthropic / Google 稳定, 这条经验在编程任务上也成立。如果你是"全中文写需求 + 让模型直接输出生产代码"的工作流, Claude Opus / Gemini 3.1 Pro 比 GPT-5.5 更值得首选。

WebDev 前 10、AA Coding 位置倒挂

Claude Opus 4.7 WebDev 第 1-2 名,AA Coding 只排第 4; GLM-5.1 WebDev 第 5 名,AA Coding 只排第 14。 两个模型都是"前端体验 > 做题分数"的典型——如果你做的事情是生成网页、React 组件、CSS 动画, 它们的实际表现比 AA Coding 数字暗示的强得多。

反过来,GPT-5.5 AA Coding 第 1,WebDev 只排第 9。 这不是 GPT-5.5 前端差,是 Claude 在前端人类偏好上拉开了断层。 算法题和前端落地是两回事,选模型前先想清楚自己主要在干嘛。

按场景选:5 个常见组合

场景
IDE 内代码补全 / Copilot 替代
首选 DeepSeek V4 Flash($0.28)或 GPT-5.4 nano($1.25)。 延迟低、跑量便宜,coding 38-44 足够格式化输出。
场景
中文需求 → 直接生成业务代码
首选 Kimi K2.6($4)或 DeepSeek V4 Pro($3.48)。 SuperCLUE 中文代码前 5,AA 国内前 2,两份榜都认。
场景
长链路代码 agent / 多文件改动
首选 Claude Sonnet 4.6($15)或 Claude Opus 4.7($25)。 LMArena WebDev 长期前列,AA 单一分数没体现的"工程执行力"是 Claude 的强项。
场景
算法题 / 数学密集型代码
首选 GPT-5.5($30)或 GPT-5.3 Codex($14)。 AA Coding 榜 1 / 3 名,做题维度护城河最厚,跑量贵就只在关键模块用。
场景
海量批处理(生成测试用例 / 注释 / 代码 review)
首选 MiniMax-M2.7($1.20)或 MiMo-V2.5($1.80)。 性价比榜第 3、4 名,coding 41-42 够用,单价压到 $1-2 区间,烧不掉太多钱。

方法学说明 / 这份榜不能告诉你的事

  • AA Coding Index 是"做题"分数。包含 SciCode、TerminalBench、GDPval-AA 等基准,但不覆盖真实工程能力(多文件改动、调试、需求理解)。算法题前列的模型未必能搞定真实代码库。
  • WebDev Arena 是"人类偏好"分数。真人盲测对比两个模型生成的网页,选"更好看/更好用"的那个。它和 AA Coding 经常倒挂——Claude 系列在 WebDev 上统治力更强,GPT-5.5 做题第一但前端体验只排第 9。
  • SuperCLUE 国外模型不参与排名。SuperCLUE 把国外模型标"不参与排名只做参考",所以"代码生成 71.15"的 Claude Opus 4.6 在它的官方排名里不算第一。本表按代码生成分数实际值排序,参考分也一起列。
  • 三个榜单的模型版本可能不一致。SuperCLUE 这期录的是 Kimi K2.5 Thinking,AA 录的是 Kimi K2.6,WebDev 里还有 Opus 4.6/4.7 的不同变体——同一家厂商的不同代际同时出现在两边。结论参考时按"家族"看,别死磕版本号。
  • 推理模型按高档位计分。同一个模型 reasoning effort 不同档位(xhigh/high/medium/low)AA 拆开排,本表按 base 模型只保留分数最高的变体。实际部署若用 medium 或更低,分数和价格都会下降。
  • 国内可用性没单独列。Claude Opus 4.7 在 AA 前 4,但官方不支持国内调用——要么走 Bedrock / Vertex 海外节点(合规风险),要么用第三方聚合(稳定性看运气)。详情见 国内 API 开通指南
  • 数据 2026-05-12 / 2026-05-12 抓取。编程模型迭代特别快(GPT-5.5、Claude 4.7、Kimi K2.6 都是最近 1-2 个月发布),本页跟着数据源每月更新。

想接下来做什么

  1. 看完编程榜,跳到 性价比散点图 把通用智能维度也叠加比较。
  2. 选定 2-3 个候选,去 2026 Q2 选型盘点 看具体场景表现。
  3. 完整价格表 对照输入价、上下文长度、国内可用性。
  4. 开通账号、跑两个真实需求自测——榜单只能帮你排除 80% 候选,最后一里还是要自己跑。