2026-05-13 · 排行榜 · 长上下文专项

LLM 长上下文模型排行:百万 token 时代的选型清单

数据来自 OpenRouter API 价格表, 所有上下文长度按厂商在 OpenRouter 公开的 context_length 字段实际可用值取, 不引用 PR 稿数字。2026-05-13 全量复核。

2M 仍是孤峰:xAI 的 Grok 4.1 Fast 把窗口拉到 200 万 token, 其他厂商整体卡在 1M-1.05M。1M 已经是 2026 旗舰的入场券,但「上下文从 1M 升到 2M」的实际收益远小于「从 200K 升到 1M」。

国内追平国际线:能上 1M 的国内模型有 5 款 (DeepSeek V4 Pro/Flash、Qwen3.6 Plus、MiMo-V2.5/Pro),价格普遍只有 Claude/GPT 同档的 1/5 到 1/15。 做长文档处理、整本书翻译这类活,国内模型的性价比断层领先。

Kimi 不再是「长上下文之王」:Moonshot 把 Kimi K2.6 公开 API 限到 262K(OpenRouter 实测),比国内 1M 阵营少一个量级。Kimi 现在的优势是中文理解和便宜,不是窗口。

200K 阵营仍有意义:Claude Haiku 4.5、GLM 5/5.1、MiniMax M2.7 停在 200K 档但价格便宜、响应快。一份合同、一篇长论文、一份会议纪要都装得下,不是每个任务都需要 1M。

完整榜单 · 按上下文窗口降序

覆盖当代主流旗舰 24 款。「装满价」= 输入百万 token 单价 × 上下文规模 / 1M, 直观告诉你「一次塞满窗口要花多少钱」。速度(t/s)来自 Artificial Analysis 实测中位数, 匹配不上的留空。

# 模型 上下文 装满价 国内
1
Grok 4.1 Fast
2M 顶配 xAI
2.00M $0.40 代理
2
GPT-5.5
1M 旗舰 OpenAI
1.05M $5.25 代理
3
GPT-5.5 Pro
1M 旗舰 OpenAI
1.05M $31.50 代理
4
GPT-5.4
1M 旗舰 OpenAI
1.05M $2.63 代理
5
Gemini 3.1 Pro Preview
1M 旗舰 Google
1.05M $2.10 不稳定
6
DeepSeek V4 Pro
1M 旗舰 DeepSeek
1.05M $0.46
7
DeepSeek V4 Flash
1M 旗舰 DeepSeek
1.05M $0.15
8
MiMo-V2.5-Pro
1M 旗舰 Xiaomi
1.05M $1.05
9
MiMo-V2.5
1M 旗舰 Xiaomi
1.05M $0.42
10
Gemini 3 Flash Preview
1M 旗舰 Google
1.05M $0.52 不稳定
11
Gemini 3.1 Flash Lite
1M 旗舰 Google
1.05M $0.26 不稳定
12
Llama 4 Maverick
1M 旗舰 Meta
1.05M $0.16 代理
13
Claude Opus 4.7
1M 旗舰 Anthropic
1.00M $5.00 代理
14
Claude Sonnet 4.6
1M 旗舰 Anthropic
1.00M $3.00 代理
15
Grok 4.3
1M 旗舰 xAI
1.00M $1.25 代理
16
Qwen3.6 Plus
1M 旗舰 Alibaba (阿里云百炼)
1.00M $0.33
17
GPT-5.4 Mini
400K 中档 OpenAI
400K $0.30 代理
18
GPT-5.4 Nano
400K 中档 OpenAI
400K $0.08 代理
19
Qwen3.6 Max Preview
200K 入门 Alibaba (阿里云百炼)
262K $0.27
20
Kimi K2.6
200K 入门 Moonshot AI
262K $0.19
21
GLM 5.1
200K 入门 Z.ai (智谱)
203K $0.20
22
GLM 5
200K 入门 Z.ai (智谱)
203K $0.12
23
Claude Haiku 4.5
200K 入门 Anthropic
200K $0.20 代理
24
MiniMax M2.7
<200K MiniMax
197K $0.04

注:表头「装满价」是「一次塞满输入窗口的理论成本」。实际项目里你很少把窗口塞满,但这个数字能横向比较「上下文越大、单次调用越贵」的真实代价。

长上下文性价比 · 谁装得多又装得便宜

换个角度看:上下文窗口大不等于实用。如果一次塞满 1M token 要花 $5 输入费,每天跑 100 次就是 $500 —— 这种价格只能做小规模实验。 下面按「装满价」升序排,便宜的优先:

# 模型 上下文 输入 $/M 装满价 国内
1 MiniMax M2.7
MiniMax
197K $0.20 $0.04
2 GPT-5.4 Nano
OpenAI
400K $0.20 $0.08 需代理
3 GLM 5
Z.ai (智谱)
203K $0.60 $0.12
4 DeepSeek V4 Flash
DeepSeek
1.05M $0.14 $0.15
5 Llama 4 Maverick
Meta
1.05M $0.15 $0.16 需代理
6 Kimi K2.6
Moonshot AI
262K $0.74 $0.19
7 GLM 5.1
Z.ai (智谱)
203K $0.98 $0.20
8 Claude Haiku 4.5
Anthropic
200K $1.00 $0.20 需代理
9 Gemini 3.1 Flash Lite
Google
1.05M $0.25 $0.26 不稳定
10 Qwen3.6 Max Preview
Alibaba (阿里云百炼)
262K $1.04 $0.27
11 GPT-5.4 Mini
OpenAI
400K $0.75 $0.30 需代理
12 Qwen3.6 Plus
Alibaba (阿里云百炼)
1.00M $0.33 $0.33

前 4 名清一色国内:DeepSeek V4 Flash 装满 1M 只要 $0.27, 比 Claude Opus 4.7 装满 1M 的 $5.00 便宜 18 倍。MiMo-V2.5、Qwen3.6 Plus 也都在 $0.5 以下。 这是「整本书翻译」「大代码库分析」这类批量长文档场景的合理选择。

Grok 4.1 Fast 是例外:2M 窗口 + 只要 $0.40 装满价,单 token 单位上下文价格反而比 Claude 系便宜—— xAI 在长上下文这个细分维度上确实在卷价格。但 Grok 国内需代理,且 AA Coding/Intelligence 排不进国际前 6, 适合「场景需求极长、对智能要求中等」的任务。

能一次塞进《红楼梦》的模型有哪些

《红楼梦》全本约 73 万汉字。按中文 0.66 token/字 折算约 110 万 token, 所以窗口要 ≥ 1M 才能一次性塞下完整原文(不分章节、不做 RAG)。下面是 16 款能做到的模型:

  • Grok 4.1 Fast · xAI · 2.00M tokens · 装满价 $0.40
  • GPT-5.5 · OpenAI · 1.05M tokens · 装满价 $5.25
  • GPT-5.5 Pro · OpenAI · 1.05M tokens · 装满价 $31.50
  • GPT-5.4 · OpenAI · 1.05M tokens · 装满价 $2.63
  • Gemini 3.1 Pro Preview · Google · 1.05M tokens · 装满价 $2.10
  • DeepSeek V4 Pro · DeepSeek · 1.05M tokens · 装满价 $0.46 国内直连
  • DeepSeek V4 Flash · DeepSeek · 1.05M tokens · 装满价 $0.15 国内直连
  • MiMo-V2.5-Pro · Xiaomi · 1.05M tokens · 装满价 $1.05 国内直连
  • MiMo-V2.5 · Xiaomi · 1.05M tokens · 装满价 $0.42 国内直连
  • Gemini 3 Flash Preview · Google · 1.05M tokens · 装满价 $0.52
  • Gemini 3.1 Flash Lite · Google · 1.05M tokens · 装满价 $0.26
  • Llama 4 Maverick · Meta · 1.05M tokens · 装满价 $0.16
  • Claude Opus 4.7 · Anthropic · 1.00M tokens · 装满价 $5.00
  • Claude Sonnet 4.6 · Anthropic · 1.00M tokens · 装满价 $3.00
  • Grok 4.3 · xAI · 1.00M tokens · 装满价 $1.25
  • Qwen3.6 Plus · Alibaba (阿里云百炼) · 1.00M tokens · 装满价 $0.33 国内直连

实操建议:如果只是想让模型回答「《红楼梦》第几回贾宝玉做了某件事」,**别**直接把全文塞进 prompt—— 那样每次提问都要花一遍装满价。更划算的做法是用 RAG 切片检索 + 短上下文模型回答, 或者用支持 Prompt Caching 的厂商(Anthropic、OpenAI、Google 都支持,二次调用便宜 50%-90%)。

国内厂商 vs 国际厂商

国际 · 1M+ 阵营
  • Grok 4.1 Fast 2.00M
  • GPT-5.5 1.05M
  • GPT-5.5 Pro 1.05M
  • GPT-5.4 1.05M
  • Gemini 3.1 Pro Preview 1.05M
  • Gemini 3 Flash Preview 1.05M
  • Gemini 3.1 Flash Lite 1.05M
  • Llama 4 Maverick 1.05M
  • Claude Opus 4.7 1.00M
  • Claude Sonnet 4.6 1.00M
  • Grok 4.3 1.00M

11 款。Grok 一家把窗口拉到 2M,其余 1M。装满价从 $0.40(Grok)到 $6.25(GPT-5.5 Pro)跨度大。

国内 · 1M+ 阵营
  • DeepSeek V4 Pro 1.05M
  • DeepSeek V4 Flash 1.05M
  • MiMo-V2.5-Pro 1.05M
  • MiMo-V2.5 1.05M
  • Qwen3.6 Plus 1.00M

5 款。装满价都在 $0.5 以下,跟国际线差出一个数量级。国内首选 DeepSeek V4 Flash($0.27/M)做批量。

国内厂商在「能上 1M」这件事上已经追平国际,且价格优势明显。剩下的差距主要在两个细节:

  • 实际可用注意力:窗口大不等于「模型真的能用」。 国内厂商在 needle-in-a-haystack 类公开测评里的成绩不如 Claude/Gemini 稳定(这是行业共识,不是国内厂商单方面问题)。
  • 超长 prompt 的速率限制:国内厂商对超长 prompt 普遍有更严的并发上限, 部分厂商在 prompt 超过 256K 后开始排队或降级。要做超长文档处理前,先用 100K / 500K / 1M 三档实际跑一下延迟。

看完榜单,这些坑别踩

1. 上下文窗口 ≠ 实际能用

所有厂商宣传的「1M 上下文」都是技术上能塞进去的最大值。实际表现衰减很普遍:靠近开头和结尾的信息更容易被记住,中间 30%-60% 这一段经常被「遗忘」。 NIAH(Needle-in-a-Haystack)是常用的测评,但通过 NIAH 不代表能做复杂推理。 做长文档任务前,建议自己写几个「在第 X 段插入一段关键句子,让模型回答」的小测试。

2. 长上下文一次调用很贵

看上面的「装满价」一列:Claude Opus 4.7 装满 1M 输入要 $5,加上几千 token 输出再花 $0.05-$0.10—— 单次调用 $5+ 的成本,对个人开发者是个砍头价。生产环境一定要做以下三件事:

  • 能切片就切片,能 RAG 就 RAG,别把长上下文当默认方案
  • 启用 Prompt Caching(Anthropic / OpenAI / Google 都有),同一份长文档二次提问可便宜 50%-90%
  • 用国内便宜模型先做粗筛,把候选段落送到旗舰模型精读

3. 长输出比长输入更慢更贵

很多人想错的方向:「我让模型读 500K,输出 500K」。 按 60 t/s 的旗舰速度,输出 500K token 要 2 小时 20 分钟,且输出价通常是输入价的 5-10 倍。 长上下文 = 输入端塞得多,输出端能短就短。让模型先给 outline,再让它对每个 outline 子段单独生成。

4. Kimi 不再是默认的长上下文选项

Kimi 早年靠 200 万字(在 2024 年大幅领先)建立了「长文本」标签。但 Kimi K2.6 公开 API 实际是 262K token, 比国内 1M 阵营少一个量级。 中文长内容理解仍然不错,但纯粹比「能塞多少」的话,DeepSeek V4 Pro / Qwen3.6 Plus / MiMo-V2.5-Pro 更合适。

5. 国内官方 API 的"长上下文档位"

注意国内厂商有时会把同一个模型按上下文长度分档计费(比如 8K / 32K / 128K 三档,单价不一样)。 OpenRouter 显示的是顶档可用值,但你直接对接厂商官方 API 时要看清你买的是哪一档。

按场景选:你真的需要 1M 吗?

单篇长文 / 论文 / 合同审查

一般 50-100 页 ≈ 50K-100K token。200K 档绰绰有余。 首选 Claude Haiku 4.5(200K, $1/M 输入)或 GLM 5.1(200K, 国内直连), 别为了"长窗口"上 1M 旗舰,纯浪费钱。

整本书阅读 / 翻译

中文长篇小说 50-80 万字 ≈ 80-130 万 token。需要 1M 档。 国内首选 DeepSeek V4 Pro(1M, $0.42 装满价)或 Qwen3.6 Plus(1M, 已稳定), 国际首选 Gemini 3.1 Pro Preview(1M, 工程稳)。

大代码库分析

10 万行代码 ≈ 30-50 万 token;50 万行 ≈ 150-200 万 token。一般 500K 起步就够单仓库分析。 首选 Claude Sonnet 4.6(1M, 编程能力最强)或 GPT-5.4(1.05M, 中档预算)。 超大代码库(>50 万行)才考虑 Grok 4.1 Fast(2M)。

Agent 长链路任务

Agent 每一步都把历史塞回去,token 增长是几何级。一个跑 50 步的 Agent 末段 prompt 可能 200K+ 起步。 首选 Claude Sonnet 4.6 / Opus 4.7(AA Agentic Index 国际榜前 3), 国内可选 DeepSeek V4 Pro(Agentic Index 国内最高)。

单轮会话 / 一般问答

90% 的日常对话连 8K token 都用不到。 不要用长上下文模型做这种事,价格、延迟、计费档位都不划算。 便宜的 Mini/Flash 档(GPT-5.4 Mini / Gemini 3 Flash / DeepSeek V4 Flash)就够了。

附录:token 怎么换算成中文字数

token 不是字符也不是单词,是模型的子词单元。不同 tokenizer 的拆分方式不一样,下面是 GPT/Claude/Gemini 系列 tokenizer 的常见经验值:

语言/内容 每 token 约 1M token ≈
中文(常见汉字) 0.55-0.75 字 60-75 万汉字
中文(含古文/生僻字) 0.4-0.6 字 40-60 万汉字
英文(散文) 0.75 单词 75 万英文单词
代码(Python / TS) 2-3 字符 2-3 万行
JSON / YAML 配置 3-4 字符 3-4 万行

表上「中文等价」一列按 0.66 字/token 估算,是个中位数。如果你的内容偏专业术语、古文或人名地名密集,实际能装下的字数会少 20%-30%。 要精确算可以用 OpenAI Tokenizer 实测。

数据来源与方法

  • 上下文窗口与价格: openrouter.ai/api/v1/models JSON 接口的 context_lengthpricing 字段。OpenRouter 实测各家 API 的可用值,比官网宣传更接近真实开发场景。
  • 生成速度: Artificial Analysis 实测的 output_tokens_per_sec 中位数。
  • 最后复核:2026-05-13(上一次完整拉取 2026-05-12)。 国产厂商窗口长度变动较频繁,下次月度更新会全量复核。
  • 不做综合分:本榜单只按上下文窗口排,把窗口长度和智能/编程分掺在一起算「长上下文综合分」。 上下文窗口只是「能塞多少」,能否在长文档里推理是另一回事——参考上面的「needle-in-haystack」段落。

相关阅读