2026-05-13 · 排行榜 · 长上下文专项

LLM 长上下文模型排行：百万 token 时代的选型清单

数据来自 OpenRouter API 价格表，所有上下文长度按厂商在 OpenRouter 公开的 context_length 字段实际可用值取，不引用 PR 稿数字。2026-05-13 全量复核。

2M 仍是孤峰：xAI 的 Grok 4.1 Fast 把窗口拉到 200 万 token，其他厂商整体卡在 1M-1.05M。1M 已经是 2026 旗舰的入场券，但「上下文从 1M 升到 2M」的实际收益远小于「从 200K 升到 1M」。

国内追平国际线：能上 1M 的国内模型有 5 款（DeepSeek V4 Pro/Flash、Qwen3.6 Plus、MiMo-V2.5/Pro），价格普遍只有 Claude/GPT 同档的 1/5 到 1/15。做长文档处理、整本书翻译这类活，国内模型的性价比断层领先。

Kimi 不再是「长上下文之王」：Moonshot 把 Kimi K2.6 公开 API 限到 262K（OpenRouter 实测），比国内 1M 阵营少一个量级。Kimi 现在的优势是中文理解和便宜，不是窗口。

200K 阵营仍有意义：Claude Haiku 4.5、GLM 5/5.1、MiniMax M2.7 停在 200K 档但价格便宜、响应快。一份合同、一篇长论文、一份会议纪要都装得下，不是每个任务都需要 1M。

完整榜单 · 按上下文窗口降序

覆盖当代主流旗舰 24 款。「装满价」= 输入百万 token 单价 × 上下文规模 / 1M，直观告诉你「一次塞满窗口要花多少钱」。速度（t/s）来自 Artificial Analysis 实测中位数，匹配不上的留空。

#	模型	上下文	中文等价	装满价	速度 t/s	国内
1	Grok 4.1 Fast 2M 顶配 xAI	2.00M	约 132.0 万汉字	$0.40	—	代理
2	GPT-5.5 1M 旗舰 OpenAI	1.05M	约 69.3 万汉字	$5.25	62	代理
3	GPT-5.5 Pro 1M 旗舰 OpenAI	1.05M	约 69.3 万汉字	$31.50	62	代理
4	GPT-5.4 1M 旗舰 OpenAI	1.05M	约 69.3 万汉字	$2.63	72	代理
5	Gemini 3.1 Pro Preview 1M 旗舰 Google	1.05M	约 69.2 万汉字	$2.10	130	不稳定
6	DeepSeek V4 Pro 1M 旗舰 DeepSeek	1.05M	约 69.2 万汉字	$0.46	30	✓
7	DeepSeek V4 Flash 1M 旗舰 DeepSeek	1.05M	约 69.2 万汉字	$0.15	67	✓
8	MiMo-V2.5-Pro 1M 旗舰 Xiaomi	1.05M	约 69.2 万汉字	$1.05	57	✓
9	MiMo-V2.5 1M 旗舰 Xiaomi	1.05M	约 69.2 万汉字	$0.42	99	✓
10	Gemini 3 Flash Preview 1M 旗舰 Google	1.05M	约 69.2 万汉字	$0.52	182	不稳定
11	Gemini 3.1 Flash Lite 1M 旗舰 Google	1.05M	约 69.2 万汉字	$0.26	—	不稳定
12	Llama 4 Maverick 1M 旗舰 Meta	1.05M	约 69.2 万汉字	$0.16	—	代理
13	Claude Opus 4.7 1M 旗舰 Anthropic	1.00M	约 66.0 万汉字	$5.00	57	代理
14	Claude Sonnet 4.6 1M 旗舰 Anthropic	1.00M	约 66.0 万汉字	$3.00	51	代理
15	Grok 4.3 1M 旗舰 xAI	1.00M	约 66.0 万汉字	$1.25	95	代理
16	Qwen3.6 Plus 1M 旗舰 Alibaba (阿里云百炼)	1.00M	约 66.0 万汉字	$0.33	53	✓
17	GPT-5.4 Mini 400K 中档 OpenAI	400K	约 26.4 万汉字	$0.30	179	代理
18	GPT-5.4 Nano 400K 中档 OpenAI	400K	约 26.4 万汉字	$0.08	167	代理
19	Qwen3.6 Max Preview 200K 入门 Alibaba (阿里云百炼)	262K	约 17.3 万汉字	$0.27	38	✓
20	Kimi K2.6 200K 入门 Moonshot AI	262K	约 17.3 万汉字	$0.19	49	✓
21	GLM 5.1 200K 入门 Z.ai (智谱)	203K	约 13.4 万汉字	$0.20	57	✓
22	GLM 5 200K 入门 Z.ai (智谱)	203K	约 13.4 万汉字	$0.12	76	✓
23	Claude Haiku 4.5 200K 入门 Anthropic	200K	约 13.2 万汉字	$0.20	—	代理
24	MiniMax M2.7 <200K MiniMax	197K	约 13.0 万汉字	$0.04	57	✓

注：表头「装满价」是「一次塞满输入窗口的理论成本」。实际项目里你很少把窗口塞满，但这个数字能横向比较「上下文越大、单次调用越贵」的真实代价。

长上下文性价比 · 谁装得多又装得便宜

换个角度看：上下文窗口大不等于实用。如果一次塞满 1M token 要花 $5 输入费，每天跑 100 次就是 $500 —— 这种价格只能做小规模实验。下面按「装满价」升序排，便宜的优先：

#	模型	上下文	输入 $/M	装满价	国内
1	MiniMax M2.7 MiniMax	197K	$0.20	$0.04	✓
2	GPT-5.4 Nano OpenAI	400K	$0.20	$0.08	需代理
3	GLM 5 Z.ai (智谱)	203K	$0.60	$0.12	✓
4	DeepSeek V4 Flash DeepSeek	1.05M	$0.14	$0.15	✓
5	Llama 4 Maverick Meta	1.05M	$0.15	$0.16	需代理
6	Kimi K2.6 Moonshot AI	262K	$0.74	$0.19	✓
7	GLM 5.1 Z.ai (智谱)	203K	$0.98	$0.20	✓
8	Claude Haiku 4.5 Anthropic	200K	$1.00	$0.20	需代理
9	Gemini 3.1 Flash Lite Google	1.05M	$0.25	$0.26	不稳定
10	Qwen3.6 Max Preview Alibaba (阿里云百炼)	262K	$1.04	$0.27	✓
11	GPT-5.4 Mini OpenAI	400K	$0.75	$0.30	需代理
12	Qwen3.6 Plus Alibaba (阿里云百炼)	1.00M	$0.33	$0.33	✓

前 4 名清一色国内：DeepSeek V4 Flash 装满 1M 只要 $0.27，比 Claude Opus 4.7 装满 1M 的 $5.00 便宜 18 倍。MiMo-V2.5、Qwen3.6 Plus 也都在 $0.5 以下。这是「整本书翻译」「大代码库分析」这类批量长文档场景的合理选择。

Grok 4.1 Fast 是例外：2M 窗口 + 只要 $0.40 装满价，单 token 单位上下文价格反而比 Claude 系便宜—— xAI 在长上下文这个细分维度上确实在卷价格。但 Grok 国内需代理，且 AA Coding/Intelligence 排不进国际前 6，适合「场景需求极长、对智能要求中等」的任务。

能一次塞进《红楼梦》的模型有哪些

《红楼梦》全本约 73 万汉字。按中文 0.66 token/字折算约 110 万 token，所以窗口要 ≥ 1M 才能一次性塞下完整原文（不分章节、不做 RAG）。下面是 16 款能做到的模型：

Grok 4.1 Fast · xAI · 2.00M tokens · 装满价 $0.40
GPT-5.5 · OpenAI · 1.05M tokens · 装满价 $5.25
GPT-5.5 Pro · OpenAI · 1.05M tokens · 装满价 $31.50
GPT-5.4 · OpenAI · 1.05M tokens · 装满价 $2.63
Gemini 3.1 Pro Preview · Google · 1.05M tokens · 装满价 $2.10
DeepSeek V4 Pro · DeepSeek · 1.05M tokens · 装满价 $0.46 国内直连
DeepSeek V4 Flash · DeepSeek · 1.05M tokens · 装满价 $0.15 国内直连
MiMo-V2.5-Pro · Xiaomi · 1.05M tokens · 装满价 $1.05 国内直连
MiMo-V2.5 · Xiaomi · 1.05M tokens · 装满价 $0.42 国内直连
Gemini 3 Flash Preview · Google · 1.05M tokens · 装满价 $0.52
Gemini 3.1 Flash Lite · Google · 1.05M tokens · 装满价 $0.26
Llama 4 Maverick · Meta · 1.05M tokens · 装满价 $0.16
Claude Opus 4.7 · Anthropic · 1.00M tokens · 装满价 $5.00
Claude Sonnet 4.6 · Anthropic · 1.00M tokens · 装满价 $3.00
Grok 4.3 · xAI · 1.00M tokens · 装满价 $1.25
Qwen3.6 Plus · Alibaba (阿里云百炼) · 1.00M tokens · 装满价 $0.33 国内直连

实操建议：如果只是想让模型回答「《红楼梦》第几回贾宝玉做了某件事」，**别**直接把全文塞进 prompt—— 那样每次提问都要花一遍装满价。更划算的做法是用 RAG 切片检索 + 短上下文模型回答，或者用支持 Prompt Caching 的厂商（Anthropic、OpenAI、Google 都支持，二次调用便宜 50%-90%）。

国内厂商 vs 国际厂商

国际 · 1M+ 阵营

Grok 4.1 Fast 2.00M
GPT-5.5 1.05M
GPT-5.5 Pro 1.05M
GPT-5.4 1.05M
Gemini 3.1 Pro Preview 1.05M
Gemini 3 Flash Preview 1.05M
Gemini 3.1 Flash Lite 1.05M
Llama 4 Maverick 1.05M
Claude Opus 4.7 1.00M
Claude Sonnet 4.6 1.00M
Grok 4.3 1.00M

11 款。Grok 一家把窗口拉到 2M，其余 1M。装满价从 $0.40（Grok）到 $6.25（GPT-5.5 Pro）跨度大。

国内 · 1M+ 阵营

DeepSeek V4 Pro 1.05M
DeepSeek V4 Flash 1.05M
MiMo-V2.5-Pro 1.05M
MiMo-V2.5 1.05M
Qwen3.6 Plus 1.00M

5 款。装满价都在 $0.5 以下，跟国际线差出一个数量级。国内首选 DeepSeek V4 Flash（$0.27/M）做批量。

国内厂商在「能上 1M」这件事上已经追平国际，且价格优势明显。剩下的差距主要在两个细节：

实际可用注意力：窗口大不等于「模型真的能用」。国内厂商在 needle-in-a-haystack 类公开测评里的成绩不如 Claude/Gemini 稳定（这是行业共识，不是国内厂商单方面问题）。
超长 prompt 的速率限制：国内厂商对超长 prompt 普遍有更严的并发上限，部分厂商在 prompt 超过 256K 后开始排队或降级。要做超长文档处理前，先用 100K / 500K / 1M 三档实际跑一下延迟。

看完榜单，这些坑别踩

1. 上下文窗口 ≠ 实际能用

所有厂商宣传的「1M 上下文」都是技术上能塞进去的最大值。实际表现衰减很普遍：靠近开头和结尾的信息更容易被记住，中间 30%-60% 这一段经常被「遗忘」。 NIAH（Needle-in-a-Haystack）是常用的测评，但通过 NIAH 不代表能做复杂推理。做长文档任务前，建议自己写几个「在第 X 段插入一段关键句子，让模型回答」的小测试。

2. 长上下文一次调用很贵

看上面的「装满价」一列：Claude Opus 4.7 装满 1M 输入要 $5，加上几千 token 输出再花 $0.05-$0.10—— 单次调用 $5+ 的成本，对个人开发者是个砍头价。生产环境一定要做以下三件事：

能切片就切片，能 RAG 就 RAG，别把长上下文当默认方案
启用 Prompt Caching（Anthropic / OpenAI / Google 都有），同一份长文档二次提问可便宜 50%-90%
用国内便宜模型先做粗筛，把候选段落送到旗舰模型精读

3. 长输出比长输入更慢更贵

很多人想错的方向：「我让模型读 500K，输出 500K」。按 60 t/s 的旗舰速度，输出 500K token 要 2 小时 20 分钟，且输出价通常是输入价的 5-10 倍。长上下文 = 输入端塞得多，输出端能短就短。让模型先给 outline，再让它对每个 outline 子段单独生成。

4. Kimi 不再是默认的长上下文选项

Kimi 早年靠 200 万字（在 2024 年大幅领先）建立了「长文本」标签。但 Kimi K2.6 公开 API 实际是 262K token，比国内 1M 阵营少一个量级。中文长内容理解仍然不错，但纯粹比「能塞多少」的话，DeepSeek V4 Pro / Qwen3.6 Plus / MiMo-V2.5-Pro 更合适。

5. 国内官方 API 的"长上下文档位"

注意国内厂商有时会把同一个模型按上下文长度分档计费（比如 8K / 32K / 128K 三档，单价不一样）。 OpenRouter 显示的是顶档可用值，但你直接对接厂商官方 API 时要看清你买的是哪一档。

按场景选：你真的需要 1M 吗？

单篇长文 / 论文 / 合同审查

一般 50-100 页 ≈ 50K-100K token。200K 档绰绰有余。 首选 Claude Haiku 4.5（200K, $1/M 输入）或 GLM 5.1（200K, 国内直连），别为了"长窗口"上 1M 旗舰，纯浪费钱。

整本书阅读 / 翻译

中文长篇小说 50-80 万字 ≈ 80-130 万 token。需要 1M 档。 国内首选 DeepSeek V4 Pro（1M, $0.42 装满价）或 Qwen3.6 Plus（1M, 已稳定），国际首选 Gemini 3.1 Pro Preview（1M, 工程稳）。

大代码库分析

10 万行代码 ≈ 30-50 万 token；50 万行 ≈ 150-200 万 token。一般 500K 起步就够单仓库分析。 首选 Claude Sonnet 4.6（1M, 编程能力最强）或 GPT-5.4（1.05M, 中档预算）。超大代码库（>50 万行）才考虑 Grok 4.1 Fast（2M）。

Agent 长链路任务

Agent 每一步都把历史塞回去，token 增长是几何级。一个跑 50 步的 Agent 末段 prompt 可能 200K+ 起步。 首选 Claude Sonnet 4.6 / Opus 4.7（AA Agentic Index 国际榜前 3），国内可选 DeepSeek V4 Pro（Agentic Index 国内最高）。

单轮会话 / 一般问答

90% 的日常对话连 8K token 都用不到。 不要用长上下文模型做这种事，价格、延迟、计费档位都不划算。便宜的 Mini/Flash 档（GPT-5.4 Mini / Gemini 3 Flash / DeepSeek V4 Flash）就够了。

附录：token 怎么换算成中文字数

token 不是字符也不是单词，是模型的子词单元。不同 tokenizer 的拆分方式不一样，下面是 GPT/Claude/Gemini 系列 tokenizer 的常见经验值：

语言/内容	每 token 约	1M token ≈
中文（常见汉字）	0.55-0.75 字	60-75 万汉字
中文（含古文/生僻字）	0.4-0.6 字	40-60 万汉字
英文（散文）	0.75 单词	75 万英文单词
代码（Python / TS）	2-3 字符	2-3 万行
JSON / YAML 配置	3-4 字符	3-4 万行

表上「中文等价」一列按 0.66 字/token 估算，是个中位数。如果你的内容偏专业术语、古文或人名地名密集，实际能装下的字数会少 20%-30%。要精确算可以用 OpenAI Tokenizer 实测。

数据来源与方法

上下文窗口与价格： openrouter.ai/api/v1/models JSON 接口的 context_length 与 pricing 字段。OpenRouter 实测各家 API 的可用值，比官网宣传更接近真实开发场景。
生成速度： Artificial Analysis 实测的 output_tokens_per_sec 中位数。
最后复核：2026-05-13（上一次完整拉取 2026-05-12）。国产厂商窗口长度变动较频繁，下次月度更新会全量复核。
不做综合分：本榜单只按上下文窗口排，不把窗口长度和智能/编程分掺在一起算「长上下文综合分」。上下文窗口只是「能塞多少」，能否在长文档里推理是另一回事——参考上面的「needle-in-haystack」段落。