2026-05-12 · 排行榜 · 生成速度专项

LLM 生成速度排行：谁跑得快、谁跑得值

数据来自 Artificial Analysis 实测输出 token/s 中位数。AA 的测试方法是向每个模型的官方 API 发送标准化 prompt，取多次调用的输出速度中位数—— 不是厂商宣传数字，是真实 API 场景里你能体验到的速度。

Google 和 OpenAI 在速度上断档领先。 Gemini 3 Flash 182 t/s、GPT-5.4 mini 179 t/s、GPT-5.4 nano 167 t/s—— 前三名的速度是第四名（Grok 4.3，94.5 t/s）的将近两倍。如果你要的是"秒回"体验，这三款没有对手。

但最快的三款也是最"笨"的旗舰之一。 Gemini 3 Flash 智能分 46.43，GPT-5.4 mini 48.9，GPT-5.4 nano 43.98—— 都比 GPT-5.5（60.24）低 10 分以上。速度和智能的 trade-off 是真实存在的，不存在"又快又强又便宜"的三全模型。

国内最快的是小米 MiMo-V2.5（非 Pro）：98.9 t/s。 比第二快的国内模型（GLM-5，75.5 t/s）快 31%，比 Kimi K2.6（49.3 t/s）快整整一倍。但 MiMo-V2.5 的智能分只有 49.03，和 Kimi K2.6 的 53.9 有 5 分差距——选速度还是选智能，是国内用户的真实两难。

DeepSeek V4 Pro 是最慢的旗舰之一：30.1 t/s。 比 Claude Opus 4.7（56.6）慢 47%，比 Gemini 3 Flash（182）慢 83%。但它是国内 SuperCLUE 第二、AA 国内第四——速度慢不等于能力差，只是它把钱花在了推理质量上而不是吞吐量优化上。

全球速度榜 · 按 output tokens/s 降序

覆盖 AA 三个榜单合并后的 20 款有速度数据的模型。 "速度"列是 AA 实测中位数，"智能"是 AA Intelligence Index，"输出价"是每百万 token 美元。

#	模型	速度 t/s	智能	输出价 $/M	国
1	Gemini 3 Flash Google	182	46.43	$3.00	🇺🇸
2	GPT-5.4 mini OpenAI	179	48.90	$4.50	🇺🇸
3	GPT-5.4 nano OpenAI	167	43.98	$1.25	🇺🇸
4	Gemini 3.1 Pro Preview Google	130	57.18	$12.00	🇺🇸
5	MiMo-V2.5 Xiaomi	99	49.03	$1.80	🇨🇳
6	Grok 4.3 xAI	95	53.20	$2.50	🇺🇸
7	GPT-5.3 Codex OpenAI	86	53.56	$14.00	🇺🇸
8	GLM-5 Z AI	76	49.77	$3.20	🇨🇳
9	GPT-5.4 OpenAI	72	47.94	$15.00	🇺🇸
10	DeepSeek V4 Flash DeepSeek	67	46.52	$0.28	🇨🇳
11	GPT-5.5 OpenAI	62	60.24	$30.00	🇺🇸
12	MiMo-V2.5-Pro Xiaomi	57	53.83	$3.00	🇨🇳
13	GLM-5.1 Z AI	57	51.41	$4.40	🇨🇳
14	MiniMax-M2.7 MiniMax	57	49.62	$1.20	🇨🇳
15	Claude Opus 4.7 Anthropic	57	57.28	$25.00	🇺🇸
16	Qwen3.6 Plus Alibaba	53	49.98	$3.00	🇨🇳
17	Claude Sonnet 4.6 Anthropic	51	51.72	$15.00	🇺🇸
18	Kimi K2.6 Kimi	49	53.90	$4.00	🇨🇳
19	Qwen3.6 Max Preview Alibaba	38	51.81	$7.80	🇨🇳
20	DeepSeek V4 Pro DeepSeek	30	51.51	$3.48	🇨🇳

前 3 名（Gemini 3 Flash / GPT-5.4 mini / GPT-5.4 nano）的速度断层非常明显—— 182 / 179 / 167 t/s 这三个数字把后面的模型甩开一个身位。 Google 和 OpenAI 在"轻量快模型"这个品类上投入了大量工程优化（推测是 speculative decoding + 高度定制的推理框架），这是国内厂商目前还没有追上的细分领域。

中间档（50-100 t/s）是国内旗舰的主战场：MiMo-V2.5（98.9）、Grok 4.3（94.5）、GLM-5（75.5）、GPT-5.4（71.7）、 DeepSeek V4 Flash（66.8）、GPT-5.5（61.7）、MiMo-V2.5-Pro（57.4）、GLM-5.1（56.8）、MiniMax-M2.7（56.8）、Claude Opus 4.7（56.6）。这个区间的速度差异对用户体验影响已经不大——50 t/s 输出 1000 字大约 13 秒，100 t/s 大约 7 秒，日常使用感知不明显。

真正拖后腿的是尾部的 DeepSeek V4 Pro（30.1） 和 Qwen3.6 Max Preview（37.9）。这两个是国内智能分最高的模型之一（51.51 和 51.81），但速度只有国际快模型的一个零头。做实时对话类产品时，这两款的延迟会成为明显短板。

国内速度榜 · Top 10

把全球榜筛出国内厂商单独看，国内"速度档"的内部排序和全球视角差异很大。

#	模型	速度 t/s	智能	输出价 $/M
1	MiMo-V2.5 Xiaomi	99	49.03	$1.80
2	GLM-5 Z AI	76	49.77	$3.20
3	DeepSeek V4 Flash DeepSeek	67	46.52	$0.28
4	MiMo-V2.5-Pro Xiaomi	57	53.83	$3.00
5	GLM-5.1 Z AI	57	51.41	$4.40
6	MiniMax-M2.7 MiniMax	57	49.62	$1.20
7	Qwen3.6 Plus Alibaba	53	49.98	$3.00
8	Kimi K2.6 Kimi	49	53.90	$4.00
9	Qwen3.6 Max Preview Alibaba	38	51.81	$7.80
10	DeepSeek V4 Pro DeepSeek	30	51.51	$3.48

MiMo-V2.5（非 Pro）是国内速度之王。 98.9 t/s 不仅在国内排第一，放到全球也能排第 4——仅次于 Gemini 3 Flash、GPT-5.4 mini、GPT-5.4 nano 三款国际快模型。更难得的是它的价格：输入 $0.36/M、输出 $1.8/M，只有 Kimi K2.6 的 45%。如果你在国内找一个"速度够快 + 价格够低 + 能力够用"的均衡选项，MiMo-V2.5 是首选。

GLM-5 是另一个被低估的速度选手。 75.5 t/s 排国内第二，比 GLM-5.1（56.8）快 33%，比 Kimi K2.6（49.3）快 53%。但 GLM-5 的上下文窗口只有 202K（GLM-5.1 是 1M），智能分也低 1.6 分—— 如果任务不需要 1M 上下文，GLM-5 的速度优势值得认真考虑。

Kimi K2.6 和 DeepSeek V4 Pro 是国内速度最慢的两款旗舰。 Kimi 49.3 t/s、DeepSeek 30.1 t/s，和 MiMo-V2.5 的 98.9 差出一倍到三倍。但这两款分别是国内 AA Intelligence 第一（53.9）和 SuperCLUE 第二（70.98）—— 速度慢是推理质量优先的工程选择，不是技术缺陷。

国际速度榜 · Top 10

国际厂商在速度上的分化比国内更极端——快的极快，慢的也不算慢。

#	模型	速度 t/s	智能	输出价 $/M
1	Gemini 3 Flash Google	182	46.43	$3.00
2	GPT-5.4 mini OpenAI	179	48.90	$4.50
3	GPT-5.4 nano OpenAI	167	43.98	$1.25
4	Gemini 3.1 Pro Preview Google	130	57.18	$12.00
5	Grok 4.3 xAI	95	53.20	$2.50
6	GPT-5.3 Codex OpenAI	86	53.56	$14.00
7	GPT-5.4 OpenAI	72	47.94	$15.00
8	GPT-5.5 OpenAI	62	60.24	$30.00
9	Claude Opus 4.7 Anthropic	57	57.28	$25.00
10	Claude Sonnet 4.6 Anthropic	51	51.72	$15.00

Google 在速度榜上拿下两个极端：Gemini 3 Flash 182 t/s（全场最快）和 Gemini 3.1 Pro Preview 129.5 t/s（旗舰里最快）。这意味着 Google 的推理基础设施在吞吐优化上做得最好——不只是轻量模型快，旗舰模型也快。

OpenAI 的速度策略是"分层"：GPT-5.4 mini（179）和 nano（167）负责快，GPT-5.5（61.7）和 GPT-5.3 Codex（86.4）负责强。 Claude 系列（Opus 56.6、Sonnet 51.0）在国际旗舰里速度垫底——Anthropic 明显没有把吞吐优化作为优先级。

速度 vs 智能：trade-off 是真实存在的

很多人问：有没有"又快又强"的模型？答案是——有，但代价是贵。真正的 trade-off 三角是速度、智能、价格只能同时满足两个。

智能前 5 名的速度排名

先把 AA Intelligence 全球最高的 5 款模型挑出来，看它们的速度分别排第几：

模型	智能分	速度 t/s	速度排第几
GPT-5.5 OpenAI	60.24	62	第 11
Claude Opus 4.7 Anthropic	57.28	57	第 15
Gemini 3.1 Pro Preview Google	57.18	130	前 5
Kimi K2.6 Kimi	53.90	49	第 18
MiMo-V2.5-Pro Xiaomi	53.83	57	第 12

智能前 5 里，只有 Grok 4.3（智能第 7，但和 MiMo-V2.5-Pro 并列）的速度进了前 5。 GPT-5.5（智能第 1）速度排第 10，Claude Opus 4.7（智能第 2）排第 14，Gemini 3.1 Pro（智能第 3）排第 6， Kimi K2.6（智能第 4/中国第 1）排第 16。

结论是："最强"和"最快"不兼容。 如果你的产品需要"实时回复"（比如客服机器人、语音对话），别选 GPT-5.5 或 Claude Opus—— 它们的 60 t/s 意味着用户说完一句话要等 3-5 秒才开始看到回复。反过来，如果做的是"深度研究报告生成"，速度不重要，智能才重要。

速度前 5 名的智能排名

换个方向，看最快的 5 款模型智能分别排第几：

模型	速度 t/s	智能分	智能排第几
Gemini 3 Flash Google	182	46.43	第 19
GPT-5.4 mini OpenAI	179	48.90	第 16
GPT-5.4 nano OpenAI	167	43.98	第 20
Gemini 3.1 Pro Preview Google	130	57.18	前 5
MiMo-V2.5 Xiaomi	99	49.03	第 15

速度前 5 里，没有一款模型的智能进前 5。最快的 Gemini 3 Flash 智能排第 17（倒数第三），GPT-5.4 nano 排第 18（倒数第二）。这意味着"快模型"牺牲的不只是价格（它们确实便宜），还有推理深度。

唯一的例外可能是 Grok 4.3：速度第 4（94.5 t/s）、智能第 7（53.2）—— 它在速度和智能之间取得了最好的平衡，同时输出价只有 $2.5/M。如果你在国际线上找一个"三者兼得"（快、强、不太贵）的选项，Grok 4.3 是目前最接近的。

速度性价比 · 每花一美元能买到多少 token/s

用 output_tokens_per_sec 除以输出价格，得到"每花一美元输出费，能买到多少生成速度"的粗略指标。这个数字不代表最终使用成本（实际费用 = 输入费 + 输出费 × 输出 token 数），但能在"跑量场景"里横向比较谁的速度"更便宜"。

#	模型	速度 t/s	输出价 $/M	token/s per $	国
1	DeepSeek V4 Flash DeepSeek	67	$0.28	238.6	🇨🇳
2	GPT-5.4 nano OpenAI	167	$1.25	133.7	🇺🇸
3	Gemini 3 Flash Google	182	$3.00	60.7	🇺🇸
4	MiMo-V2.5 Xiaomi	99	$1.80	54.9	🇨🇳
5	MiniMax-M2.7 MiniMax	57	$1.20	47.3	🇨🇳
6	GPT-5.4 mini OpenAI	179	$4.50	39.8	🇺🇸
7	Grok 4.3 xAI	95	$2.50	37.8	🇺🇸
8	GLM-5 Z AI	76	$3.20	23.6	🇨🇳
9	MiMo-V2.5-Pro Xiaomi	57	$3.00	19.1	🇨🇳
10	Qwen3.6 Plus Alibaba	53	$3.00	17.7	🇨🇳
11	GLM-5.1 Z AI	57	$4.40	12.9	🇨🇳
12	Kimi K2.6 Kimi	49	$4.00	12.3	🇨🇳
13	Gemini 3.1 Pro Preview Google	130	$12.00	10.8	🇺🇸
14	DeepSeek V4 Pro DeepSeek	30	$3.48	8.6	🇨🇳
15	GPT-5.3 Codex OpenAI	86	$14.00	6.2	🇺🇸
16	Qwen3.6 Max Preview Alibaba	38	$7.80	4.9	🇨🇳
17	GPT-5.4 OpenAI	72	$15.00	4.8	🇺🇸
18	Claude Sonnet 4.6 Anthropic	51	$15.00	3.4	🇺🇸
19	Claude Opus 4.7 Anthropic	57	$25.00	2.3	🇺🇸
20	GPT-5.5 OpenAI	62	$30.00	2.1	🇺🇸

DeepSeek V4 Flash 是速度性价比的极端值：238.6 token/s per $。 比第 2 名的 GPT-5.4 nano（133.7）高出 78%。$0.28/M 的输出价 + 66.8 t/s 的速度，意味着你在批量生成场景里花最少的钱、获得还不错的速度——当然，智能分 46.52 是硬伤。

GPT-5.4 nano 是国际线上的速度性价比之王：133.7 token/s per $。 167.1 t/s 的速度是全场第三，$1.25/M 的输出价只有 Gemini 3 Flash（$3.0）的 42%。如果你在国际线上需要一个"够快 + 够便宜"的轻量模型，nano 比 Flash 更值得考虑。

旗舰模型的速度性价比都很惨。 Claude Opus 4.7 只有 2.26，GPT-5.5 只有 2.06—— 它们的速度只有快模型的 1/3，价格却是 6-10 倍。这不是说它们不值得买，是说它们的"价值"不在速度维度上。选旗舰是为了智能，接受它的慢；选快模型是为了体验，接受它的笨。

按场景选：你需要多快的模型？

场景

实时对话 / 语音助手 / 客服机器人

需要首 token 延迟低 + 输出流畅。推荐速度 ≥ 90 t/s。 国际首选 Gemini 3 Flash（182）或 GPT-5.4 mini（179）； 国内首选 MiMo-V2.5（98.9）。

场景

流式输出 / 长文生成（>5000 字）

用户能容忍几秒延迟，但不能容忍"卡 half"。推荐速度 60-100 t/s。 国际首选 Grok 4.3（94.5）—— 速度第 4、智能第 7、价格第 3 便宜，三者平衡最好。 国内选 GLM-5（75.5）或 DeepSeek V4 Flash（66.8）。

场景

代码补全 / IDE 集成 / Copilot 替代

需要低延迟 + 足够智能。50-80 t/s 够用，但 coding 能力不能太差。 国际首选 Claude Sonnet 4.6（51.0）—— 速度中等但 Coding Index 50.94（全球第 5），Cursor 默认推它是有原因的。 国内首选 GLM-5.1（56.8）—— WebDev 第 5 名，前端代码体验被严重低估。

场景

深度研究 / 复杂推理 / 长链路 Agent

速度不重要，智能和上下文才重要。30-60 t/s 完全够用。 国际首选 GPT-5.5（61.7）或 Claude Opus 4.7（56.6）； 国内首选 Kimi K2.6（49.3）或 DeepSeek V4 Pro（30.1）。用户不会因为你慢 10 秒而放弃一个更准的答案。

场景

海量批处理（生成测试数据 / 标注 / 内容填充）

速度 × 价格都要极致。推荐速度性价比榜前 3。 国内首选 DeepSeek V4 Flash（238.6 token/s per $）； 国际首选 GPT-5.4 nano（133.7）。批处理场景容错率高，智能差一点不影响结果可用性。

看完榜单，这些坑别踩

1. 速度数据是"中位数"，不是承诺

AA 测的是多次调用的中位数，但实际体验受很多因素影响：并发量、prompt 长度、网络延迟、厂商负载。高峰期（比如国内晚上 8-10 点）的速度可能比中位数低 30%-50%。做产品时不要按"最佳速度"设计用户体验，按"高峰期速度的 70%"来留余量。

2. 轻量模型的"快"是结构性的

GPT-5.4 mini（179 t/s）和 GPT-5.5（61.7 t/s）是同一个厂商、同一个推理基础设施—— 为什么 mini 快 3 倍？因为 mini 的参数量小、计算量少。这不是"优化做得好"，是"模型本身更简单"。别指望 GPT-5.5 未来通过软件优化达到 mini 的速度，它们的架构差距是物理性的。

3. 国内厂商的速度差异可能是网络延迟

AA 的测试服务器大概率在海外。国内模型（DeepSeek、Kimi、智谱）的 API 服务器在国内，如果你从国内调用，实际延迟可能比 AA 测出来的数字好 20%-40%。反过来，从国内调用 Claude 或 GPT，网络延迟可能比 AA 测出来的更差。这些榜单上的速度数字不是绝对值，是相对排名——国内模型之间比、国际模型之间比，跨阵营比较要加网络延迟修正。

4. 首 token 延迟（TTFT）和输出速度是两回事

本榜只测了"输出速度"（tokens per second），没测"首 token 时间"（Time To First Token）。有些模型输出很快，但用户说完话要等 2 秒才开始看到回复——这在对话场景里比"输出慢"更致命。 AA 也有 TTFT 数据，但本页为了简洁没纳入。如果你做实时语音/对话产品，建议单独关注 TTFT。

5. 缓存和并发会显著影响速度

很多厂商对重复 prompt 有缓存加速（Anthropic 的 Prompt Caching、OpenAI 的 cached input 等），第二次调用的速度可能比第一次快 2-5 倍。AA 的测试每次都用新 prompt，所以没体现这个优势。如果你的产品有大量重复查询（比如固定模板的客服回复），实际速度可能比榜单数字好很多。

数据来源与方法

生成速度： Artificial Analysis 实测的 output_tokens_per_sec 中位数。AA 向每个模型的官方 API 发送标准化 prompt，取多次调用中位数。测试条件统一，跨模型可比性强。
智能分与价格： 同来自 Artificial Analysis 的 Intelligence Index 和官方 API 定价。价格单位 USD/百万 token，按 base 模型去重（同一模型多种 reasoning effort 只保留最高分档）。
抓取时间：2026-05-12。速度数据变动相对缓慢（厂商不会每周改推理基础设施），建议月度复核。
不做综合分：本榜单只按输出速度排，不把速度和智能/编程分掺在一起算"综合速度分"。速度只是选型的一个维度，不是全部。