2026-05-12 · 排行榜 · 生成速度专项

LLM 生成速度排行:谁跑得快、谁跑得值

数据来自 Artificial Analysis 实测输出 token/s 中位数。AA 的测试方法是向每个模型的官方 API 发送标准化 prompt,取多次调用的输出速度中位数—— 不是厂商宣传数字,是真实 API 场景里你能体验到的速度。

Google 和 OpenAI 在速度上断档领先。 Gemini 3 Flash 182 t/s、GPT-5.4 mini 179 t/s、GPT-5.4 nano 167 t/s—— 前三名的速度是第四名(Grok 4.3,94.5 t/s)的将近两倍。如果你要的是"秒回"体验,这三款没有对手。

但最快的三款也是最"笨"的旗舰之一。 Gemini 3 Flash 智能分 46.43,GPT-5.4 mini 48.9,GPT-5.4 nano 43.98—— 都比 GPT-5.5(60.24)低 10 分以上。速度和智能的 trade-off 是真实存在的,不存在"又快又强又便宜"的三全模型。

国内最快的是小米 MiMo-V2.5(非 Pro):98.9 t/s。 比第二快的国内模型(GLM-5,75.5 t/s)快 31%,比 Kimi K2.6(49.3 t/s)快整整一倍。 但 MiMo-V2.5 的智能分只有 49.03,和 Kimi K2.6 的 53.9 有 5 分差距——选速度还是选智能,是国内用户的真实两难。

DeepSeek V4 Pro 是最慢的旗舰之一:30.1 t/s。 比 Claude Opus 4.7(56.6)慢 47%,比 Gemini 3 Flash(182)慢 83%。 但它是国内 SuperCLUE 第二、AA 国内第四——速度慢不等于能力差,只是它把钱花在了推理质量上而不是吞吐量优化上。

全球速度榜 · 按 output tokens/s 降序

覆盖 AA 三个榜单合并后的 20 款有速度数据的模型。 "速度"列是 AA 实测中位数,"智能"是 AA Intelligence Index,"输出价"是每百万 token 美元。

# 模型 速度 t/s 输出价 $/M
1 Gemini 3 Flash
Google
182 $3.00 🇺🇸
2 GPT-5.4 mini
OpenAI
179 $4.50 🇺🇸
3 GPT-5.4 nano
OpenAI
167 $1.25 🇺🇸
4 Gemini 3.1 Pro Preview
Google
130 $12.00 🇺🇸
5 MiMo-V2.5
Xiaomi
99 $1.80 🇨🇳
6 Grok 4.3
xAI
95 $2.50 🇺🇸
7 GPT-5.3 Codex
OpenAI
86 $14.00 🇺🇸
8 GLM-5
Z AI
76 $3.20 🇨🇳
9 GPT-5.4
OpenAI
72 $15.00 🇺🇸
10 DeepSeek V4 Flash
DeepSeek
67 $0.28 🇨🇳
11 GPT-5.5
OpenAI
62 $30.00 🇺🇸
12 MiMo-V2.5-Pro
Xiaomi
57 $3.00 🇨🇳
13 GLM-5.1
Z AI
57 $4.40 🇨🇳
14 MiniMax-M2.7
MiniMax
57 $1.20 🇨🇳
15 Claude Opus 4.7
Anthropic
57 $25.00 🇺🇸
16 Qwen3.6 Plus
Alibaba
53 $3.00 🇨🇳
17 Claude Sonnet 4.6
Anthropic
51 $15.00 🇺🇸
18 Kimi K2.6
Kimi
49 $4.00 🇨🇳
19 Qwen3.6 Max Preview
Alibaba
38 $7.80 🇨🇳
20 DeepSeek V4 Pro
DeepSeek
30 $3.48 🇨🇳

前 3 名(Gemini 3 Flash / GPT-5.4 mini / GPT-5.4 nano)的速度断层非常明显—— 182 / 179 / 167 t/s 这三个数字把后面的模型甩开一个身位。 Google 和 OpenAI 在"轻量快模型"这个品类上投入了大量工程优化(推测是 speculative decoding + 高度定制的推理框架), 这是国内厂商目前还没有追上的细分领域。

中间档(50-100 t/s)是国内旗舰的主战场:MiMo-V2.5(98.9)、Grok 4.3(94.5)、GLM-5(75.5)、GPT-5.4(71.7)、 DeepSeek V4 Flash(66.8)、GPT-5.5(61.7)、MiMo-V2.5-Pro(57.4)、GLM-5.1(56.8)、MiniMax-M2.7(56.8)、Claude Opus 4.7(56.6)。 这个区间的速度差异对用户体验影响已经不大——50 t/s 输出 1000 字大约 13 秒,100 t/s 大约 7 秒,日常使用感知不明显。

真正拖后腿的是尾部的 DeepSeek V4 Pro(30.1)Qwen3.6 Max Preview(37.9)。 这两个是国内智能分最高的模型之一(51.51 和 51.81),但速度只有国际快模型的一个零头。 做实时对话类产品时,这两款的延迟会成为明显短板。

国内速度榜 · Top 10

把全球榜筛出国内厂商单独看,国内"速度档"的内部排序和全球视角差异很大。

# 模型 速度 t/s 输出价 $/M
1 MiMo-V2.5
Xiaomi
99 $1.80
2 GLM-5
Z AI
76 $3.20
3 DeepSeek V4 Flash
DeepSeek
67 $0.28
4 MiMo-V2.5-Pro
Xiaomi
57 $3.00
5 GLM-5.1
Z AI
57 $4.40
6 MiniMax-M2.7
MiniMax
57 $1.20
7 Qwen3.6 Plus
Alibaba
53 $3.00
8 Kimi K2.6
Kimi
49 $4.00
9 Qwen3.6 Max Preview
Alibaba
38 $7.80
10 DeepSeek V4 Pro
DeepSeek
30 $3.48

MiMo-V2.5(非 Pro)是国内速度之王。 98.9 t/s 不仅在国内排第一,放到全球也能排第 4——仅次于 Gemini 3 Flash、GPT-5.4 mini、GPT-5.4 nano 三款国际快模型。 更难得的是它的价格:输入 $0.36/M、输出 $1.8/M,只有 Kimi K2.6 的 45%。 如果你在国内找一个"速度够快 + 价格够低 + 能力够用"的均衡选项,MiMo-V2.5 是首选。

GLM-5 是另一个被低估的速度选手。 75.5 t/s 排国内第二,比 GLM-5.1(56.8)快 33%,比 Kimi K2.6(49.3)快 53%。 但 GLM-5 的上下文窗口只有 202K(GLM-5.1 是 1M),智能分也低 1.6 分—— 如果任务不需要 1M 上下文,GLM-5 的速度优势值得认真考虑。

Kimi K2.6 和 DeepSeek V4 Pro 是国内速度最慢的两款旗舰。 Kimi 49.3 t/s、DeepSeek 30.1 t/s,和 MiMo-V2.5 的 98.9 差出一倍到三倍。 但这两款分别是国内 AA Intelligence 第一(53.9)和 SuperCLUE 第二(70.98)—— 速度慢是推理质量优先的工程选择,不是技术缺陷。

国际速度榜 · Top 10

国际厂商在速度上的分化比国内更极端——快的极快,慢的也不算慢。

# 模型 速度 t/s 输出价 $/M
1 Gemini 3 Flash
Google
182 $3.00
2 GPT-5.4 mini
OpenAI
179 $4.50
3 GPT-5.4 nano
OpenAI
167 $1.25
4 Gemini 3.1 Pro Preview
Google
130 $12.00
5 Grok 4.3
xAI
95 $2.50
6 GPT-5.3 Codex
OpenAI
86 $14.00
7 GPT-5.4
OpenAI
72 $15.00
8 GPT-5.5
OpenAI
62 $30.00
9 Claude Opus 4.7
Anthropic
57 $25.00
10 Claude Sonnet 4.6
Anthropic
51 $15.00

Google 在速度榜上拿下两个极端:Gemini 3 Flash 182 t/s(全场最快)和 Gemini 3.1 Pro Preview 129.5 t/s(旗舰里最快)。 这意味着 Google 的推理基础设施在吞吐优化上做得最好——不只是轻量模型快,旗舰模型也快。

OpenAI 的速度策略是"分层":GPT-5.4 mini(179)和 nano(167)负责快,GPT-5.5(61.7)和 GPT-5.3 Codex(86.4)负责强。 Claude 系列(Opus 56.6、Sonnet 51.0)在国际旗舰里速度垫底——Anthropic 明显没有把吞吐优化作为优先级。

速度 vs 智能:trade-off 是真实存在的

很多人问:有没有"又快又强"的模型?答案是——有,但代价是贵。 真正的 trade-off 三角是速度、智能、价格只能同时满足两个

智能前 5 名的速度排名

先把 AA Intelligence 全球最高的 5 款模型挑出来,看它们的速度分别排第几:

模型 智能分 速度 t/s 速度排第几
GPT-5.5
OpenAI
60.24 62 第 11
Claude Opus 4.7
Anthropic
57.28 57 第 15
Gemini 3.1 Pro Preview
Google
57.18 130 前 5
Kimi K2.6
Kimi
53.90 49 第 18
MiMo-V2.5-Pro
Xiaomi
53.83 57 第 12

智能前 5 里,只有 Grok 4.3(智能第 7,但和 MiMo-V2.5-Pro 并列)的速度进了前 5。 GPT-5.5(智能第 1)速度排第 10,Claude Opus 4.7(智能第 2)排第 14,Gemini 3.1 Pro(智能第 3)排第 6, Kimi K2.6(智能第 4/中国第 1)排第 16。

结论是:"最强"和"最快"不兼容。 如果你的产品需要"实时回复"(比如客服机器人、语音对话),别选 GPT-5.5 或 Claude Opus—— 它们的 60 t/s 意味着用户说完一句话要等 3-5 秒才开始看到回复。 反过来,如果做的是"深度研究报告生成",速度不重要,智能才重要。

速度前 5 名的智能排名

换个方向,看最快的 5 款模型智能分别排第几:

模型 速度 t/s 智能分 智能排第几
Gemini 3 Flash
Google
182 46.43 第 19
GPT-5.4 mini
OpenAI
179 48.90 第 16
GPT-5.4 nano
OpenAI
167 43.98 第 20
Gemini 3.1 Pro Preview
Google
130 57.18 前 5
MiMo-V2.5
Xiaomi
99 49.03 第 15

速度前 5 里,没有一款模型的智能进前 5。 最快的 Gemini 3 Flash 智能排第 17(倒数第三),GPT-5.4 nano 排第 18(倒数第二)。 这意味着"快模型"牺牲的不只是价格(它们确实便宜),还有推理深度。

唯一的例外可能是 Grok 4.3:速度第 4(94.5 t/s)、智能第 7(53.2)—— 它在速度和智能之间取得了最好的平衡,同时输出价只有 $2.5/M。 如果你在国际线上找一个"三者兼得"(快、强、不太贵)的选项,Grok 4.3 是目前最接近的。

速度性价比 · 每花一美元能买到多少 token/s

用 output_tokens_per_sec 除以输出价格,得到"每花一美元输出费,能买到多少生成速度"的粗略指标。 这个数字不代表最终使用成本(实际费用 = 输入费 + 输出费 × 输出 token 数),但能在"跑量场景"里横向比较谁的速度"更便宜"。

# 模型 速度 t/s 输出价 $/M token/s per $
1 DeepSeek V4 Flash
DeepSeek
67 $0.28 238.6 🇨🇳
2 GPT-5.4 nano
OpenAI
167 $1.25 133.7 🇺🇸
3 Gemini 3 Flash
Google
182 $3.00 60.7 🇺🇸
4 MiMo-V2.5
Xiaomi
99 $1.80 54.9 🇨🇳
5 MiniMax-M2.7
MiniMax
57 $1.20 47.3 🇨🇳
6 GPT-5.4 mini
OpenAI
179 $4.50 39.8 🇺🇸
7 Grok 4.3
xAI
95 $2.50 37.8 🇺🇸
8 GLM-5
Z AI
76 $3.20 23.6 🇨🇳
9 MiMo-V2.5-Pro
Xiaomi
57 $3.00 19.1 🇨🇳
10 Qwen3.6 Plus
Alibaba
53 $3.00 17.7 🇨🇳
11 GLM-5.1
Z AI
57 $4.40 12.9 🇨🇳
12 Kimi K2.6
Kimi
49 $4.00 12.3 🇨🇳
13 Gemini 3.1 Pro Preview
Google
130 $12.00 10.8 🇺🇸
14 DeepSeek V4 Pro
DeepSeek
30 $3.48 8.6 🇨🇳
15 GPT-5.3 Codex
OpenAI
86 $14.00 6.2 🇺🇸
16 Qwen3.6 Max Preview
Alibaba
38 $7.80 4.9 🇨🇳
17 GPT-5.4
OpenAI
72 $15.00 4.8 🇺🇸
18 Claude Sonnet 4.6
Anthropic
51 $15.00 3.4 🇺🇸
19 Claude Opus 4.7
Anthropic
57 $25.00 2.3 🇺🇸
20 GPT-5.5
OpenAI
62 $30.00 2.1 🇺🇸

DeepSeek V4 Flash 是速度性价比的极端值:238.6 token/s per $。 比第 2 名的 GPT-5.4 nano(133.7)高出 78%。$0.28/M 的输出价 + 66.8 t/s 的速度, 意味着你在批量生成场景里花最少的钱、获得还不错的速度——当然,智能分 46.52 是硬伤。

GPT-5.4 nano 是国际线上的速度性价比之王:133.7 token/s per $。 167.1 t/s 的速度是全场第三,$1.25/M 的输出价只有 Gemini 3 Flash($3.0)的 42%。 如果你在国际线上需要一个"够快 + 够便宜"的轻量模型,nano 比 Flash 更值得考虑。

旗舰模型的速度性价比都很惨。 Claude Opus 4.7 只有 2.26,GPT-5.5 只有 2.06—— 它们的速度只有快模型的 1/3,价格却是 6-10 倍。 这不是说它们不值得买,是说它们的"价值"不在速度维度上。 选旗舰是为了智能,接受它的慢;选快模型是为了体验,接受它的笨。

按场景选:你需要多快的模型?

场景
实时对话 / 语音助手 / 客服机器人
需要首 token 延迟低 + 输出流畅。推荐速度 ≥ 90 t/s。 国际首选 Gemini 3 Flash(182)GPT-5.4 mini(179)国内首选 MiMo-V2.5(98.9)
场景
流式输出 / 长文生成(>5000 字)
用户能容忍几秒延迟,但不能容忍"卡 half"。推荐速度 60-100 t/s。 国际首选 Grok 4.3(94.5)—— 速度第 4、智能第 7、价格第 3 便宜,三者平衡最好。 国内选 GLM-5(75.5)DeepSeek V4 Flash(66.8)
场景
代码补全 / IDE 集成 / Copilot 替代
需要低延迟 + 足够智能。50-80 t/s 够用,但 coding 能力不能太差。 国际首选 Claude Sonnet 4.6(51.0)—— 速度中等但 Coding Index 50.94(全球第 5),Cursor 默认推它是有原因的。 国内首选 GLM-5.1(56.8)—— WebDev 第 5 名,前端代码体验被严重低估。
场景
深度研究 / 复杂推理 / 长链路 Agent
速度不重要,智能和上下文才重要。30-60 t/s 完全够用。 国际首选 GPT-5.5(61.7)Claude Opus 4.7(56.6)国内首选 Kimi K2.6(49.3)DeepSeek V4 Pro(30.1)。 用户不会因为你慢 10 秒而放弃一个更准的答案。
场景
海量批处理(生成测试数据 / 标注 / 内容填充)
速度 × 价格 都要极致。推荐速度性价比榜前 3。 国内首选 DeepSeek V4 Flash(238.6 token/s per $)国际首选 GPT-5.4 nano(133.7)。 批处理场景容错率高,智能差一点不影响结果可用性。

看完榜单,这些坑别踩

1. 速度数据是"中位数",不是承诺

AA 测的是多次调用的中位数,但实际体验受很多因素影响:并发量、prompt 长度、网络延迟、厂商负载。 高峰期(比如国内晚上 8-10 点)的速度可能比中位数低 30%-50%。 做产品时不要按"最佳速度"设计用户体验,按"高峰期速度的 70%"来留余量。

2. 轻量模型的"快"是结构性的

GPT-5.4 mini(179 t/s)和 GPT-5.5(61.7 t/s)是同一个厂商、同一个推理基础设施—— 为什么 mini 快 3 倍?因为 mini 的参数量小、计算量少。 这不是"优化做得好",是"模型本身更简单"。 别指望 GPT-5.5 未来通过软件优化达到 mini 的速度,它们的架构差距是物理性的。

3. 国内厂商的速度差异可能是网络延迟

AA 的测试服务器大概率在海外。国内模型(DeepSeek、Kimi、智谱)的 API 服务器在国内, 如果你从国内调用,实际延迟可能比 AA 测出来的数字好 20%-40%。 反过来,从国内调用 Claude 或 GPT,网络延迟可能比 AA 测出来的更差。 这些榜单上的速度数字不是绝对值,是相对排名——国内模型之间比、国际模型之间比,跨阵营比较要加网络延迟修正。

4. 首 token 延迟(TTFT)和输出速度是两回事

本榜只测了"输出速度"(tokens per second),没测"首 token 时间"(Time To First Token)。 有些模型输出很快,但用户说完话要等 2 秒才开始看到回复——这在对话场景里比"输出慢"更致命。 AA 也有 TTFT 数据,但本页为了简洁没纳入。如果你做实时语音/对话产品,建议单独关注 TTFT。

5. 缓存和并发会显著影响速度

很多厂商对重复 prompt 有缓存加速(Anthropic 的 Prompt Caching、OpenAI 的 cached input 等), 第二次调用的速度可能比第一次快 2-5 倍。AA 的测试每次都用新 prompt,所以没体现这个优势。 如果你的产品有大量重复查询(比如固定模板的客服回复),实际速度可能比榜单数字好很多。

数据来源与方法

  • 生成速度: Artificial Analysis 实测的 output_tokens_per_sec 中位数。AA 向每个模型的官方 API 发送标准化 prompt,取多次调用中位数。 测试条件统一,跨模型可比性强。
  • 智能分与价格: 同来自 Artificial Analysis 的 Intelligence Index 和官方 API 定价。 价格单位 USD/百万 token,按 base 模型去重(同一模型多种 reasoning effort 只保留最高分档)。
  • 抓取时间:2026-05-12。 速度数据变动相对缓慢(厂商不会每周改推理基础设施),建议月度复核。
  • 不做综合分:本榜单只按输出速度排,不把速度和智能/编程分掺在一起算"综合速度分"。 速度只是选型的一个维度,不是全部。

相关阅读