LLM 生成速度排行:谁跑得快、谁跑得值
数据来自 Artificial Analysis 实测输出 token/s 中位数。AA 的测试方法是向每个模型的官方 API 发送标准化 prompt,取多次调用的输出速度中位数—— 不是厂商宣传数字,是真实 API 场景里你能体验到的速度。
Google 和 OpenAI 在速度上断档领先。 Gemini 3 Flash 182 t/s、GPT-5.4 mini 179 t/s、GPT-5.4 nano 167 t/s—— 前三名的速度是第四名(Grok 4.3,94.5 t/s)的将近两倍。如果你要的是"秒回"体验,这三款没有对手。
但最快的三款也是最"笨"的旗舰之一。 Gemini 3 Flash 智能分 46.43,GPT-5.4 mini 48.9,GPT-5.4 nano 43.98—— 都比 GPT-5.5(60.24)低 10 分以上。速度和智能的 trade-off 是真实存在的,不存在"又快又强又便宜"的三全模型。
国内最快的是小米 MiMo-V2.5(非 Pro):98.9 t/s。 比第二快的国内模型(GLM-5,75.5 t/s)快 31%,比 Kimi K2.6(49.3 t/s)快整整一倍。 但 MiMo-V2.5 的智能分只有 49.03,和 Kimi K2.6 的 53.9 有 5 分差距——选速度还是选智能,是国内用户的真实两难。
DeepSeek V4 Pro 是最慢的旗舰之一:30.1 t/s。 比 Claude Opus 4.7(56.6)慢 47%,比 Gemini 3 Flash(182)慢 83%。 但它是国内 SuperCLUE 第二、AA 国内第四——速度慢不等于能力差,只是它把钱花在了推理质量上而不是吞吐量优化上。
全球速度榜 · 按 output tokens/s 降序
覆盖 AA 三个榜单合并后的 20 款有速度数据的模型。 "速度"列是 AA 实测中位数,"智能"是 AA Intelligence Index,"输出价"是每百万 token 美元。
| # | 模型 | 速度 t/s | 输出价 $/M | 国 |
|---|---|---|---|---|
| 1 | Gemini 3 Flash Google | 182 | $3.00 | 🇺🇸 |
| 2 | GPT-5.4 mini OpenAI | 179 | $4.50 | 🇺🇸 |
| 3 | GPT-5.4 nano OpenAI | 167 | $1.25 | 🇺🇸 |
| 4 | Gemini 3.1 Pro Preview Google | 130 | $12.00 | 🇺🇸 |
| 5 | MiMo-V2.5 Xiaomi | 99 | $1.80 | 🇨🇳 |
| 6 | Grok 4.3 xAI | 95 | $2.50 | 🇺🇸 |
| 7 | GPT-5.3 Codex OpenAI | 86 | $14.00 | 🇺🇸 |
| 8 | GLM-5 Z AI | 76 | $3.20 | 🇨🇳 |
| 9 | GPT-5.4 OpenAI | 72 | $15.00 | 🇺🇸 |
| 10 | DeepSeek V4 Flash DeepSeek | 67 | $0.28 | 🇨🇳 |
| 11 | GPT-5.5 OpenAI | 62 | $30.00 | 🇺🇸 |
| 12 | MiMo-V2.5-Pro Xiaomi | 57 | $3.00 | 🇨🇳 |
| 13 | GLM-5.1 Z AI | 57 | $4.40 | 🇨🇳 |
| 14 | MiniMax-M2.7 MiniMax | 57 | $1.20 | 🇨🇳 |
| 15 | Claude Opus 4.7 Anthropic | 57 | $25.00 | 🇺🇸 |
| 16 | Qwen3.6 Plus Alibaba | 53 | $3.00 | 🇨🇳 |
| 17 | Claude Sonnet 4.6 Anthropic | 51 | $15.00 | 🇺🇸 |
| 18 | Kimi K2.6 Kimi | 49 | $4.00 | 🇨🇳 |
| 19 | Qwen3.6 Max Preview Alibaba | 38 | $7.80 | 🇨🇳 |
| 20 | DeepSeek V4 Pro DeepSeek | 30 | $3.48 | 🇨🇳 |
前 3 名(Gemini 3 Flash / GPT-5.4 mini / GPT-5.4 nano)的速度断层非常明显—— 182 / 179 / 167 t/s 这三个数字把后面的模型甩开一个身位。 Google 和 OpenAI 在"轻量快模型"这个品类上投入了大量工程优化(推测是 speculative decoding + 高度定制的推理框架), 这是国内厂商目前还没有追上的细分领域。
中间档(50-100 t/s)是国内旗舰的主战场:MiMo-V2.5(98.9)、Grok 4.3(94.5)、GLM-5(75.5)、GPT-5.4(71.7)、 DeepSeek V4 Flash(66.8)、GPT-5.5(61.7)、MiMo-V2.5-Pro(57.4)、GLM-5.1(56.8)、MiniMax-M2.7(56.8)、Claude Opus 4.7(56.6)。 这个区间的速度差异对用户体验影响已经不大——50 t/s 输出 1000 字大约 13 秒,100 t/s 大约 7 秒,日常使用感知不明显。
真正拖后腿的是尾部的 DeepSeek V4 Pro(30.1) 和 Qwen3.6 Max Preview(37.9)。 这两个是国内智能分最高的模型之一(51.51 和 51.81),但速度只有国际快模型的一个零头。 做实时对话类产品时,这两款的延迟会成为明显短板。
国内速度榜 · Top 10
把全球榜筛出国内厂商单独看,国内"速度档"的内部排序和全球视角差异很大。
| # | 模型 | 速度 t/s | 输出价 $/M |
|---|---|---|---|
| 1 | MiMo-V2.5 Xiaomi | 99 | $1.80 |
| 2 | GLM-5 Z AI | 76 | $3.20 |
| 3 | DeepSeek V4 Flash DeepSeek | 67 | $0.28 |
| 4 | MiMo-V2.5-Pro Xiaomi | 57 | $3.00 |
| 5 | GLM-5.1 Z AI | 57 | $4.40 |
| 6 | MiniMax-M2.7 MiniMax | 57 | $1.20 |
| 7 | Qwen3.6 Plus Alibaba | 53 | $3.00 |
| 8 | Kimi K2.6 Kimi | 49 | $4.00 |
| 9 | Qwen3.6 Max Preview Alibaba | 38 | $7.80 |
| 10 | DeepSeek V4 Pro DeepSeek | 30 | $3.48 |
MiMo-V2.5(非 Pro)是国内速度之王。 98.9 t/s 不仅在国内排第一,放到全球也能排第 4——仅次于 Gemini 3 Flash、GPT-5.4 mini、GPT-5.4 nano 三款国际快模型。 更难得的是它的价格:输入 $0.36/M、输出 $1.8/M,只有 Kimi K2.6 的 45%。 如果你在国内找一个"速度够快 + 价格够低 + 能力够用"的均衡选项,MiMo-V2.5 是首选。
GLM-5 是另一个被低估的速度选手。 75.5 t/s 排国内第二,比 GLM-5.1(56.8)快 33%,比 Kimi K2.6(49.3)快 53%。 但 GLM-5 的上下文窗口只有 202K(GLM-5.1 是 1M),智能分也低 1.6 分—— 如果任务不需要 1M 上下文,GLM-5 的速度优势值得认真考虑。
Kimi K2.6 和 DeepSeek V4 Pro 是国内速度最慢的两款旗舰。 Kimi 49.3 t/s、DeepSeek 30.1 t/s,和 MiMo-V2.5 的 98.9 差出一倍到三倍。 但这两款分别是国内 AA Intelligence 第一(53.9)和 SuperCLUE 第二(70.98)—— 速度慢是推理质量优先的工程选择,不是技术缺陷。
国际速度榜 · Top 10
国际厂商在速度上的分化比国内更极端——快的极快,慢的也不算慢。
| # | 模型 | 速度 t/s | 输出价 $/M |
|---|---|---|---|
| 1 | Gemini 3 Flash Google | 182 | $3.00 |
| 2 | GPT-5.4 mini OpenAI | 179 | $4.50 |
| 3 | GPT-5.4 nano OpenAI | 167 | $1.25 |
| 4 | Gemini 3.1 Pro Preview Google | 130 | $12.00 |
| 5 | Grok 4.3 xAI | 95 | $2.50 |
| 6 | GPT-5.3 Codex OpenAI | 86 | $14.00 |
| 7 | GPT-5.4 OpenAI | 72 | $15.00 |
| 8 | GPT-5.5 OpenAI | 62 | $30.00 |
| 9 | Claude Opus 4.7 Anthropic | 57 | $25.00 |
| 10 | Claude Sonnet 4.6 Anthropic | 51 | $15.00 |
Google 在速度榜上拿下两个极端:Gemini 3 Flash 182 t/s(全场最快)和 Gemini 3.1 Pro Preview 129.5 t/s(旗舰里最快)。 这意味着 Google 的推理基础设施在吞吐优化上做得最好——不只是轻量模型快,旗舰模型也快。
OpenAI 的速度策略是"分层":GPT-5.4 mini(179)和 nano(167)负责快,GPT-5.5(61.7)和 GPT-5.3 Codex(86.4)负责强。 Claude 系列(Opus 56.6、Sonnet 51.0)在国际旗舰里速度垫底——Anthropic 明显没有把吞吐优化作为优先级。
速度 vs 智能:trade-off 是真实存在的
很多人问:有没有"又快又强"的模型?答案是——有,但代价是贵。 真正的 trade-off 三角是速度、智能、价格只能同时满足两个。
智能前 5 名的速度排名
先把 AA Intelligence 全球最高的 5 款模型挑出来,看它们的速度分别排第几:
| 模型 | 智能分 | 速度 t/s | 速度排第几 |
|---|---|---|---|
| GPT-5.5 OpenAI | 60.24 | 62 | 第 11 |
| Claude Opus 4.7 Anthropic | 57.28 | 57 | 第 15 |
| Gemini 3.1 Pro Preview Google | 57.18 | 130 | 前 5 |
| Kimi K2.6 Kimi | 53.90 | 49 | 第 18 |
| MiMo-V2.5-Pro Xiaomi | 53.83 | 57 | 第 12 |
智能前 5 里,只有 Grok 4.3(智能第 7,但和 MiMo-V2.5-Pro 并列)的速度进了前 5。 GPT-5.5(智能第 1)速度排第 10,Claude Opus 4.7(智能第 2)排第 14,Gemini 3.1 Pro(智能第 3)排第 6, Kimi K2.6(智能第 4/中国第 1)排第 16。
结论是:"最强"和"最快"不兼容。 如果你的产品需要"实时回复"(比如客服机器人、语音对话),别选 GPT-5.5 或 Claude Opus—— 它们的 60 t/s 意味着用户说完一句话要等 3-5 秒才开始看到回复。 反过来,如果做的是"深度研究报告生成",速度不重要,智能才重要。
速度前 5 名的智能排名
换个方向,看最快的 5 款模型智能分别排第几:
| 模型 | 速度 t/s | 智能分 | 智能排第几 |
|---|---|---|---|
| Gemini 3 Flash Google | 182 | 46.43 | 第 19 |
| GPT-5.4 mini OpenAI | 179 | 48.90 | 第 16 |
| GPT-5.4 nano OpenAI | 167 | 43.98 | 第 20 |
| Gemini 3.1 Pro Preview Google | 130 | 57.18 | 前 5 |
| MiMo-V2.5 Xiaomi | 99 | 49.03 | 第 15 |
速度前 5 里,没有一款模型的智能进前 5。 最快的 Gemini 3 Flash 智能排第 17(倒数第三),GPT-5.4 nano 排第 18(倒数第二)。 这意味着"快模型"牺牲的不只是价格(它们确实便宜),还有推理深度。
唯一的例外可能是 Grok 4.3:速度第 4(94.5 t/s)、智能第 7(53.2)—— 它在速度和智能之间取得了最好的平衡,同时输出价只有 $2.5/M。 如果你在国际线上找一个"三者兼得"(快、强、不太贵)的选项,Grok 4.3 是目前最接近的。
速度性价比 · 每花一美元能买到多少 token/s
用 output_tokens_per_sec 除以输出价格,得到"每花一美元输出费,能买到多少生成速度"的粗略指标。 这个数字不代表最终使用成本(实际费用 = 输入费 + 输出费 × 输出 token 数),但能在"跑量场景"里横向比较谁的速度"更便宜"。
| # | 模型 | 速度 t/s | 输出价 $/M | token/s per $ | 国 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash DeepSeek | 67 | $0.28 | 238.6 | 🇨🇳 |
| 2 | GPT-5.4 nano OpenAI | 167 | $1.25 | 133.7 | 🇺🇸 |
| 3 | Gemini 3 Flash Google | 182 | $3.00 | 60.7 | 🇺🇸 |
| 4 | MiMo-V2.5 Xiaomi | 99 | $1.80 | 54.9 | 🇨🇳 |
| 5 | MiniMax-M2.7 MiniMax | 57 | $1.20 | 47.3 | 🇨🇳 |
| 6 | GPT-5.4 mini OpenAI | 179 | $4.50 | 39.8 | 🇺🇸 |
| 7 | Grok 4.3 xAI | 95 | $2.50 | 37.8 | 🇺🇸 |
| 8 | GLM-5 Z AI | 76 | $3.20 | 23.6 | 🇨🇳 |
| 9 | MiMo-V2.5-Pro Xiaomi | 57 | $3.00 | 19.1 | 🇨🇳 |
| 10 | Qwen3.6 Plus Alibaba | 53 | $3.00 | 17.7 | 🇨🇳 |
| 11 | GLM-5.1 Z AI | 57 | $4.40 | 12.9 | 🇨🇳 |
| 12 | Kimi K2.6 Kimi | 49 | $4.00 | 12.3 | 🇨🇳 |
| 13 | Gemini 3.1 Pro Preview Google | 130 | $12.00 | 10.8 | 🇺🇸 |
| 14 | DeepSeek V4 Pro DeepSeek | 30 | $3.48 | 8.6 | 🇨🇳 |
| 15 | GPT-5.3 Codex OpenAI | 86 | $14.00 | 6.2 | 🇺🇸 |
| 16 | Qwen3.6 Max Preview Alibaba | 38 | $7.80 | 4.9 | 🇨🇳 |
| 17 | GPT-5.4 OpenAI | 72 | $15.00 | 4.8 | 🇺🇸 |
| 18 | Claude Sonnet 4.6 Anthropic | 51 | $15.00 | 3.4 | 🇺🇸 |
| 19 | Claude Opus 4.7 Anthropic | 57 | $25.00 | 2.3 | 🇺🇸 |
| 20 | GPT-5.5 OpenAI | 62 | $30.00 | 2.1 | 🇺🇸 |
DeepSeek V4 Flash 是速度性价比的极端值:238.6 token/s per $。 比第 2 名的 GPT-5.4 nano(133.7)高出 78%。$0.28/M 的输出价 + 66.8 t/s 的速度, 意味着你在批量生成场景里花最少的钱、获得还不错的速度——当然,智能分 46.52 是硬伤。
GPT-5.4 nano 是国际线上的速度性价比之王:133.7 token/s per $。 167.1 t/s 的速度是全场第三,$1.25/M 的输出价只有 Gemini 3 Flash($3.0)的 42%。 如果你在国际线上需要一个"够快 + 够便宜"的轻量模型,nano 比 Flash 更值得考虑。
旗舰模型的速度性价比都很惨。 Claude Opus 4.7 只有 2.26,GPT-5.5 只有 2.06—— 它们的速度只有快模型的 1/3,价格却是 6-10 倍。 这不是说它们不值得买,是说它们的"价值"不在速度维度上。 选旗舰是为了智能,接受它的慢;选快模型是为了体验,接受它的笨。
按场景选:你需要多快的模型?
看完榜单,这些坑别踩
1. 速度数据是"中位数",不是承诺
AA 测的是多次调用的中位数,但实际体验受很多因素影响:并发量、prompt 长度、网络延迟、厂商负载。 高峰期(比如国内晚上 8-10 点)的速度可能比中位数低 30%-50%。 做产品时不要按"最佳速度"设计用户体验,按"高峰期速度的 70%"来留余量。
2. 轻量模型的"快"是结构性的
GPT-5.4 mini(179 t/s)和 GPT-5.5(61.7 t/s)是同一个厂商、同一个推理基础设施—— 为什么 mini 快 3 倍?因为 mini 的参数量小、计算量少。 这不是"优化做得好",是"模型本身更简单"。 别指望 GPT-5.5 未来通过软件优化达到 mini 的速度,它们的架构差距是物理性的。
3. 国内厂商的速度差异可能是网络延迟
AA 的测试服务器大概率在海外。国内模型(DeepSeek、Kimi、智谱)的 API 服务器在国内, 如果你从国内调用,实际延迟可能比 AA 测出来的数字好 20%-40%。 反过来,从国内调用 Claude 或 GPT,网络延迟可能比 AA 测出来的更差。 这些榜单上的速度数字不是绝对值,是相对排名——国内模型之间比、国际模型之间比,跨阵营比较要加网络延迟修正。
4. 首 token 延迟(TTFT)和输出速度是两回事
本榜只测了"输出速度"(tokens per second),没测"首 token 时间"(Time To First Token)。 有些模型输出很快,但用户说完话要等 2 秒才开始看到回复——这在对话场景里比"输出慢"更致命。 AA 也有 TTFT 数据,但本页为了简洁没纳入。如果你做实时语音/对话产品,建议单独关注 TTFT。
5. 缓存和并发会显著影响速度
很多厂商对重复 prompt 有缓存加速(Anthropic 的 Prompt Caching、OpenAI 的 cached input 等), 第二次调用的速度可能比第一次快 2-5 倍。AA 的测试每次都用新 prompt,所以没体现这个优势。 如果你的产品有大量重复查询(比如固定模板的客服回复),实际速度可能比榜单数字好很多。
数据来源与方法
- 生成速度: Artificial Analysis 实测的 output_tokens_per_sec 中位数。AA 向每个模型的官方 API 发送标准化 prompt,取多次调用中位数。 测试条件统一,跨模型可比性强。
- 智能分与价格: 同来自 Artificial Analysis 的 Intelligence Index 和官方 API 定价。 价格单位 USD/百万 token,按 base 模型去重(同一模型多种 reasoning effort 只保留最高分档)。
- 抓取时间:2026-05-12。 速度数据变动相对缓慢(厂商不会每周改推理基础设施),建议月度复核。
- 不做综合分:本榜单只按输出速度排,不把速度和智能/编程分掺在一起算"综合速度分"。 速度只是选型的一个维度,不是全部。