LLM 长上下文模型排行:百万 token 时代的选型清单
数据来自 OpenRouter API 价格表,
所有上下文长度按厂商在 OpenRouter 公开的 context_length 字段实际可用值取,
不引用 PR 稿数字。2026-05-13 全量复核。
2M 仍是孤峰:xAI 的 Grok 4.1 Fast 把窗口拉到 200 万 token, 其他厂商整体卡在 1M-1.05M。1M 已经是 2026 旗舰的入场券,但「上下文从 1M 升到 2M」的实际收益远小于「从 200K 升到 1M」。
国内追平国际线:能上 1M 的国内模型有 5 款 (DeepSeek V4 Pro/Flash、Qwen3.6 Plus、MiMo-V2.5/Pro),价格普遍只有 Claude/GPT 同档的 1/5 到 1/15。 做长文档处理、整本书翻译这类活,国内模型的性价比断层领先。
Kimi 不再是「长上下文之王」:Moonshot 把 Kimi K2.6 公开 API 限到 262K(OpenRouter 实测),比国内 1M 阵营少一个量级。Kimi 现在的优势是中文理解和便宜,不是窗口。
200K 阵营仍有意义:Claude Haiku 4.5、GLM 5/5.1、MiniMax M2.7 停在 200K 档但价格便宜、响应快。一份合同、一篇长论文、一份会议纪要都装得下,不是每个任务都需要 1M。
完整榜单 · 按上下文窗口降序
覆盖当代主流旗舰 24 款。「装满价」= 输入百万 token 单价 × 上下文规模 / 1M, 直观告诉你「一次塞满窗口要花多少钱」。速度(t/s)来自 Artificial Analysis 实测中位数, 匹配不上的留空。
| # | 模型 | 上下文 | 装满价 | 国内 |
|---|---|---|---|---|
| 1 | Grok 4.1 Fast 2M 顶配 xAI | 2.00M | $0.40 | 代理 |
| 2 | GPT-5.5 1M 旗舰 OpenAI | 1.05M | $5.25 | 代理 |
| 3 | GPT-5.5 Pro 1M 旗舰 OpenAI | 1.05M | $31.50 | 代理 |
| 4 | GPT-5.4 1M 旗舰 OpenAI | 1.05M | $2.63 | 代理 |
| 5 | Gemini 3.1 Pro Preview 1M 旗舰 Google | 1.05M | $2.10 | 不稳定 |
| 6 | DeepSeek V4 Pro 1M 旗舰 DeepSeek | 1.05M | $0.46 | ✓ |
| 7 | DeepSeek V4 Flash 1M 旗舰 DeepSeek | 1.05M | $0.15 | ✓ |
| 8 | MiMo-V2.5-Pro 1M 旗舰 Xiaomi | 1.05M | $1.05 | ✓ |
| 9 | MiMo-V2.5 1M 旗舰 Xiaomi | 1.05M | $0.42 | ✓ |
| 10 | Gemini 3 Flash Preview 1M 旗舰 Google | 1.05M | $0.52 | 不稳定 |
| 11 | Gemini 3.1 Flash Lite 1M 旗舰 Google | 1.05M | $0.26 | 不稳定 |
| 12 | Llama 4 Maverick 1M 旗舰 Meta | 1.05M | $0.16 | 代理 |
| 13 | Claude Opus 4.7 1M 旗舰 Anthropic | 1.00M | $5.00 | 代理 |
| 14 | Claude Sonnet 4.6 1M 旗舰 Anthropic | 1.00M | $3.00 | 代理 |
| 15 | Grok 4.3 1M 旗舰 xAI | 1.00M | $1.25 | 代理 |
| 16 | Qwen3.6 Plus 1M 旗舰 Alibaba (阿里云百炼) | 1.00M | $0.33 | ✓ |
| 17 | GPT-5.4 Mini 400K 中档 OpenAI | 400K | $0.30 | 代理 |
| 18 | GPT-5.4 Nano 400K 中档 OpenAI | 400K | $0.08 | 代理 |
| 19 | Qwen3.6 Max Preview 200K 入门 Alibaba (阿里云百炼) | 262K | $0.27 | ✓ |
| 20 | Kimi K2.6 200K 入门 Moonshot AI | 262K | $0.19 | ✓ |
| 21 | GLM 5.1 200K 入门 Z.ai (智谱) | 203K | $0.20 | ✓ |
| 22 | GLM 5 200K 入门 Z.ai (智谱) | 203K | $0.12 | ✓ |
| 23 | Claude Haiku 4.5 200K 入门 Anthropic | 200K | $0.20 | 代理 |
| 24 | MiniMax M2.7 <200K MiniMax | 197K | $0.04 | ✓ |
注:表头「装满价」是「一次塞满输入窗口的理论成本」。实际项目里你很少把窗口塞满,但这个数字能横向比较「上下文越大、单次调用越贵」的真实代价。
长上下文性价比 · 谁装得多又装得便宜
换个角度看:上下文窗口大不等于实用。如果一次塞满 1M token 要花 $5 输入费,每天跑 100 次就是 $500 —— 这种价格只能做小规模实验。 下面按「装满价」升序排,便宜的优先:
| # | 模型 | 上下文 | 输入 $/M | 装满价 | 国内 |
|---|---|---|---|---|---|
| 1 | MiniMax M2.7 MiniMax | 197K | $0.20 | $0.04 | ✓ |
| 2 | GPT-5.4 Nano OpenAI | 400K | $0.20 | $0.08 | 需代理 |
| 3 | GLM 5 Z.ai (智谱) | 203K | $0.60 | $0.12 | ✓ |
| 4 | DeepSeek V4 Flash DeepSeek | 1.05M | $0.14 | $0.15 | ✓ |
| 5 | Llama 4 Maverick Meta | 1.05M | $0.15 | $0.16 | 需代理 |
| 6 | Kimi K2.6 Moonshot AI | 262K | $0.74 | $0.19 | ✓ |
| 7 | GLM 5.1 Z.ai (智谱) | 203K | $0.98 | $0.20 | ✓ |
| 8 | Claude Haiku 4.5 Anthropic | 200K | $1.00 | $0.20 | 需代理 |
| 9 | Gemini 3.1 Flash Lite Google | 1.05M | $0.25 | $0.26 | 不稳定 |
| 10 | Qwen3.6 Max Preview Alibaba (阿里云百炼) | 262K | $1.04 | $0.27 | ✓ |
| 11 | GPT-5.4 Mini OpenAI | 400K | $0.75 | $0.30 | 需代理 |
| 12 | Qwen3.6 Plus Alibaba (阿里云百炼) | 1.00M | $0.33 | $0.33 | ✓ |
前 4 名清一色国内:DeepSeek V4 Flash 装满 1M 只要 $0.27, 比 Claude Opus 4.7 装满 1M 的 $5.00 便宜 18 倍。MiMo-V2.5、Qwen3.6 Plus 也都在 $0.5 以下。 这是「整本书翻译」「大代码库分析」这类批量长文档场景的合理选择。
Grok 4.1 Fast 是例外:2M 窗口 + 只要 $0.40 装满价,单 token 单位上下文价格反而比 Claude 系便宜—— xAI 在长上下文这个细分维度上确实在卷价格。但 Grok 国内需代理,且 AA Coding/Intelligence 排不进国际前 6, 适合「场景需求极长、对智能要求中等」的任务。
能一次塞进《红楼梦》的模型有哪些
《红楼梦》全本约 73 万汉字。按中文 0.66 token/字 折算约 110 万 token, 所以窗口要 ≥ 1M 才能一次性塞下完整原文(不分章节、不做 RAG)。下面是 16 款能做到的模型:
- Grok 4.1 Fast · xAI · 2.00M tokens · 装满价 $0.40
- GPT-5.5 · OpenAI · 1.05M tokens · 装满价 $5.25
- GPT-5.5 Pro · OpenAI · 1.05M tokens · 装满价 $31.50
- GPT-5.4 · OpenAI · 1.05M tokens · 装满价 $2.63
- Gemini 3.1 Pro Preview · Google · 1.05M tokens · 装满价 $2.10
- MiMo-V2.5 · Xiaomi · 1.05M tokens · 装满价 $0.42 国内直连
- Gemini 3 Flash Preview · Google · 1.05M tokens · 装满价 $0.52
- Gemini 3.1 Flash Lite · Google · 1.05M tokens · 装满价 $0.26
- Llama 4 Maverick · Meta · 1.05M tokens · 装满价 $0.16
- Claude Opus 4.7 · Anthropic · 1.00M tokens · 装满价 $5.00
- Claude Sonnet 4.6 · Anthropic · 1.00M tokens · 装满价 $3.00
- Grok 4.3 · xAI · 1.00M tokens · 装满价 $1.25
实操建议:如果只是想让模型回答「《红楼梦》第几回贾宝玉做了某件事」,**别**直接把全文塞进 prompt—— 那样每次提问都要花一遍装满价。更划算的做法是用 RAG 切片检索 + 短上下文模型回答, 或者用支持 Prompt Caching 的厂商(Anthropic、OpenAI、Google 都支持,二次调用便宜 50%-90%)。
国内厂商 vs 国际厂商
- Grok 4.1 Fast 2.00M
- GPT-5.5 1.05M
- GPT-5.5 Pro 1.05M
- GPT-5.4 1.05M
- Gemini 3.1 Pro Preview 1.05M
- Gemini 3 Flash Preview 1.05M
- Gemini 3.1 Flash Lite 1.05M
- Llama 4 Maverick 1.05M
- Claude Opus 4.7 1.00M
- Claude Sonnet 4.6 1.00M
- Grok 4.3 1.00M
11 款。Grok 一家把窗口拉到 2M,其余 1M。装满价从 $0.40(Grok)到 $6.25(GPT-5.5 Pro)跨度大。
- DeepSeek V4 Pro 1.05M
- DeepSeek V4 Flash 1.05M
- MiMo-V2.5-Pro 1.05M
- MiMo-V2.5 1.05M
- Qwen3.6 Plus 1.00M
5 款。装满价都在 $0.5 以下,跟国际线差出一个数量级。国内首选 DeepSeek V4 Flash($0.27/M)做批量。
国内厂商在「能上 1M」这件事上已经追平国际,且价格优势明显。剩下的差距主要在两个细节:
- 实际可用注意力:窗口大不等于「模型真的能用」。 国内厂商在 needle-in-a-haystack 类公开测评里的成绩不如 Claude/Gemini 稳定(这是行业共识,不是国内厂商单方面问题)。
- 超长 prompt 的速率限制:国内厂商对超长 prompt 普遍有更严的并发上限, 部分厂商在 prompt 超过 256K 后开始排队或降级。要做超长文档处理前,先用 100K / 500K / 1M 三档实际跑一下延迟。
看完榜单,这些坑别踩
1. 上下文窗口 ≠ 实际能用
所有厂商宣传的「1M 上下文」都是技术上能塞进去的最大值。实际表现衰减很普遍:靠近开头和结尾的信息更容易被记住,中间 30%-60% 这一段经常被「遗忘」。 NIAH(Needle-in-a-Haystack)是常用的测评,但通过 NIAH 不代表能做复杂推理。 做长文档任务前,建议自己写几个「在第 X 段插入一段关键句子,让模型回答」的小测试。
2. 长上下文一次调用很贵
看上面的「装满价」一列:Claude Opus 4.7 装满 1M 输入要 $5,加上几千 token 输出再花 $0.05-$0.10—— 单次调用 $5+ 的成本,对个人开发者是个砍头价。生产环境一定要做以下三件事:
- 能切片就切片,能 RAG 就 RAG,别把长上下文当默认方案
- 启用 Prompt Caching(Anthropic / OpenAI / Google 都有),同一份长文档二次提问可便宜 50%-90%
- 用国内便宜模型先做粗筛,把候选段落送到旗舰模型精读
3. 长输出比长输入更慢更贵
很多人想错的方向:「我让模型读 500K,输出 500K」。 按 60 t/s 的旗舰速度,输出 500K token 要 2 小时 20 分钟,且输出价通常是输入价的 5-10 倍。 长上下文 = 输入端塞得多,输出端能短就短。让模型先给 outline,再让它对每个 outline 子段单独生成。
4. Kimi 不再是默认的长上下文选项
Kimi 早年靠 200 万字(在 2024 年大幅领先)建立了「长文本」标签。但 Kimi K2.6 公开 API 实际是 262K token, 比国内 1M 阵营少一个量级。 中文长内容理解仍然不错,但纯粹比「能塞多少」的话,DeepSeek V4 Pro / Qwen3.6 Plus / MiMo-V2.5-Pro 更合适。
5. 国内官方 API 的"长上下文档位"
注意国内厂商有时会把同一个模型按上下文长度分档计费(比如 8K / 32K / 128K 三档,单价不一样)。 OpenRouter 显示的是顶档可用值,但你直接对接厂商官方 API 时要看清你买的是哪一档。
按场景选:你真的需要 1M 吗?
一般 50-100 页 ≈ 50K-100K token。200K 档绰绰有余。 首选 Claude Haiku 4.5(200K, $1/M 输入)或 GLM 5.1(200K, 国内直连), 别为了"长窗口"上 1M 旗舰,纯浪费钱。
中文长篇小说 50-80 万字 ≈ 80-130 万 token。需要 1M 档。 国内首选 DeepSeek V4 Pro(1M, $0.42 装满价)或 Qwen3.6 Plus(1M, 已稳定), 国际首选 Gemini 3.1 Pro Preview(1M, 工程稳)。
10 万行代码 ≈ 30-50 万 token;50 万行 ≈ 150-200 万 token。一般 500K 起步就够单仓库分析。 首选 Claude Sonnet 4.6(1M, 编程能力最强)或 GPT-5.4(1.05M, 中档预算)。 超大代码库(>50 万行)才考虑 Grok 4.1 Fast(2M)。
Agent 每一步都把历史塞回去,token 增长是几何级。一个跑 50 步的 Agent 末段 prompt 可能 200K+ 起步。 首选 Claude Sonnet 4.6 / Opus 4.7(AA Agentic Index 国际榜前 3), 国内可选 DeepSeek V4 Pro(Agentic Index 国内最高)。
90% 的日常对话连 8K token 都用不到。 不要用长上下文模型做这种事,价格、延迟、计费档位都不划算。 便宜的 Mini/Flash 档(GPT-5.4 Mini / Gemini 3 Flash / DeepSeek V4 Flash)就够了。
附录:token 怎么换算成中文字数
token 不是字符也不是单词,是模型的子词单元。不同 tokenizer 的拆分方式不一样,下面是 GPT/Claude/Gemini 系列 tokenizer 的常见经验值:
| 语言/内容 | 每 token 约 | 1M token ≈ |
|---|---|---|
| 中文(常见汉字) | 0.55-0.75 字 | 60-75 万汉字 |
| 中文(含古文/生僻字) | 0.4-0.6 字 | 40-60 万汉字 |
| 英文(散文) | 0.75 单词 | 75 万英文单词 |
| 代码(Python / TS) | 2-3 字符 | 2-3 万行 |
| JSON / YAML 配置 | 3-4 字符 | 3-4 万行 |
表上「中文等价」一列按 0.66 字/token 估算,是个中位数。如果你的内容偏专业术语、古文或人名地名密集,实际能装下的字数会少 20%-30%。 要精确算可以用 OpenAI Tokenizer 实测。
数据来源与方法
- 上下文窗口与价格: openrouter.ai/api/v1/models JSON 接口的
context_length与pricing字段。OpenRouter 实测各家 API 的可用值,比官网宣传更接近真实开发场景。 - 生成速度: Artificial Analysis 实测的 output_tokens_per_sec 中位数。
- 最后复核:2026-05-13(上一次完整拉取 2026-05-12)。 国产厂商窗口长度变动较频繁,下次月度更新会全量复核。
- 不做综合分:本榜单只按上下文窗口排,不把窗口长度和智能/编程分掺在一起算「长上下文综合分」。 上下文窗口只是「能塞多少」,能否在长文档里推理是另一回事——参考上面的「needle-in-haystack」段落。