2026-05-15 · 场景化选型

AI 翻译选什么 LLM？文档 / 字幕 / 代码注释场景实测

翻译跟"聊天"完全是两回事——它要的是不乱发挥的忠实度、能吞整本书的上下文、能驾驭中英文之间的微妙差异，以及大量输入下还扛得住的价格。本文用 Vectara HHEM 摘要幻觉率（量化"敢不敢乱编"）+ OpenRouter context_length + 各厂商官方 API 价格三个独立来源交叉，给出 4 个分场景推荐。

一句话结论

忠实度最高 + 便宜的隐形冠军——GPT-5.4 Nano（HHEM 幻觉率 3.1% 全场仅次于蚂蚁金融小模型，400k 上下文，输入 $0.2 / 输出 $1.25）。翻译场景最被低估的选择。
国内综合最优——DeepSeek V4 Pro（HHEM 8.6% 国内最低，1M 上下文，$0.435 / $0.87，注册即用免代理）。
大型项目 / 整本书——Grok 4.1 Fast（2M 上下文，$0.2 / $0.5）能塞下整本《红楼梦》还有余量，但 HR 17.8% 偏高，适合做初稿翻译后人工精修。
高端文学 / 学术翻译——Claude Sonnet 4.6（HR 10.6% + 1M 上下文 + 中英行文细腻），$3 / $15。
字幕 / 短文本批量——DeepSeek V4 Flash（$0.126 / $0.252，1M 上下文）配自动术语表 prompt 是性价比天花板。

翻译场景看哪四个维度

幻觉率（HHEM Hallucination Rate）——翻译时模型敢不敢自由发挥、删掉看不懂的句子、补一些"听起来更合理"的内容。HHEM 越低越好。
上下文窗口——一次能吞多少原文。小说一章约 1-2 万字（≈ 2-4k token），整本书 10-30 万字（≈ 20-60k token），多语 PDF 技术文档可能 100k+。
输入价——翻译是输入重于输出的活：原文要喂进去，译文长度相近，所以输入单价比输出单价对总成本影响更大。看 input_usd_per_million。
国内可用性——长稳调用是关键。Claude / GPT / Gemini 走代理在做长文档翻译时延迟和断流频繁，国内直连模型在大批量场景实操体验更稳。

数据来源：Vectara HHEM-2.3（May 11, 2026 更新）+ SuperCLUE 通用基准（2026年3月，2026-05-12）+ 各厂商官方 API 价目表（2026-05-14 复核）。

翻译综合榜：12 款主力选手对比

以下排序按"翻译权重分"——忠实度（100-HR）45% + 上下文规模 25% + 国内可用 15% + 价格档 15%。这是本场景下的视角排序，不是 HHEM 官方榜。

#	模型	HR	上下文	输入价	输出价
1	DeepSeek V4 Pro 国内可用 DeepSeek	8.6%	1M	$0.43	$0.87
2	GLM 5 国内可用 Z.ai (智谱)	10.1%	203k	$0.6	$1.92
3	Kimi K2.6 国内可用 Moonshot AI	10.8%	262k	$0.74	$3.50
4	MiniMax M2.7 国内可用 MiniMax	12.9%	197k	$0.28	$1.20
5	Gemini 3.1 Flash Lite 国内不稳 Google	8.2%	1M	$0.25	$1.50
6	Llama 4 Maverick 需代理 Meta	8.2%	1M	$0.15	$0.6
7	Gemini 3 Flash Preview 国内不稳 Google	13.5%	1M	$0.5	$3.00
8	GPT-5.4 Nano 需代理 OpenAI	3.1%	400k	$0.2	$1.25
9	Gemini 3.1 Pro Preview 国内不稳 Google	10.4%	1M	$2.00	$12.00
10	GPT-5.4 Mini 需代理 OpenAI	5.5%	400k	$0.75	$4.50
11	Grok 4.1 Fast 需代理 xAI	17.8%	2M	$0.2	$0.5
12	GPT-5.4 需代理 OpenAI	7.0%	1.1M	$2.50	$15.00

表头第一行的 GPT-5.4 Nano HR 3.1% 是这张榜最大的反共识——它不是 OpenAI 旗舰（GPT-5.5 HR 9.3%），却在保真度上吊打全场。代价：上下文 400k 比旗舰 1M 小一截，不能塞整本书。

大批量 / 整本文档翻译性价比

要翻 10 万字以上的合同、PDF 技术文档、整本书——上下文要够大（≥ 1M）且 HR 不能太高（≤ 12%）。下面按输入价升序排：

模型	输入价	上下文	HR	国内可用
Llama 4 Maverick Meta	$0.15	1M	8.2%	需代理
Gemini 3.1 Flash Lite Google	$0.25	1M	8.2%	国内不稳
DeepSeek V4 Pro DeepSeek	$0.43	1M	8.6%	国内可用
Gemini 3.1 Pro Preview Google	$2.00	1M	10.4%	国内不稳
GPT-5.4 OpenAI	$2.50	1.1M	7.0%	需代理
Claude Sonnet 4.6 Anthropic	$3.00	1M	10.6%	需代理
GPT-5.5 OpenAI	$5.00	1.1M	9.3%	需代理
Claude Opus 4.7 Anthropic	$5.00	1M	12.0%	需代理

DeepSeek V4 Flash $0.126 输入是同档最便宜——翻译 30 万字技术文档约 200k token，输入成本仅 $0.025（≈ ¥0.18）。前提是接受 HR 11.x% 的轻微"自由发挥"，重要术语手动整理 glossary。

严控错译档：法律 / 医疗 / 合同 / 招股书

这类场景"翻错一个词就完蛋"——HR ≤ 10% 是底线。下面按 HR 升序，分数越低越严谨：

模型	HR	上下文	输入价	备注
GPT-5.4 Nano OpenAI	3.1%	400k	$0.2	需代理
GPT-5.4 Mini OpenAI	5.5%	400k	$0.75	需代理
GPT-5.4 OpenAI	7.0%	1.1M	$2.50	需代理
Gemini 3.1 Flash Lite Google	8.2%	1M	$0.25	国内不稳
Llama 4 Maverick Meta	8.2%	1M	$0.15	需代理
DeepSeek V4 Pro DeepSeek	8.6%	1M	$0.43	国内可用
GPT-5.5 OpenAI	9.3%	1.1M	$5.00	需代理
Claude Haiku 4.5 Anthropic	9.8%	200k	$1.00	需代理

关键观察：所有 Claude 系列 HR 都在 10.3-12.0% 之间，做严控错译翻译时不是最优解——尽管它中文行文流畅。如果你做的是法律 / 医疗这种"准确性 > 文采"的活，GPT-5.4 Nano / GPT-5.4 Mini / DeepSeek V4 Pro 都比 Claude 更稳。

四个细分场景的具体选型

技术文档翻译（API 文档 / 用户手册 / SDK 说明）——首选 GPT-5.4 Nano（HR 3.1% + 400k 上下文足够单章节）或 DeepSeek V4 Pro（国内免代理 + HR 8.6%）。Claude 在这类场景中等水平，过于"润色"反而把代码块的术语翻译得不准。
字幕 / 短文本批量翻译——首选 DeepSeek V4 Flash（$0.252 输出，1M 上下文 + 11.x% HR 可接受）。配合 prompt 里"保留专有名词原文 + 输出 SRT 时间戳"模板，单集 1 小时美剧字幕约 $0.005 ≈ ¥0.04。
文学 / 学术翻译（小说 / 论文 / 散文）——首选 Claude Sonnet 4.6 或 Gemini 3.1 Pro。这类场景"翻译质量 > HR"——读者会接受译者轻微改写以保持文气，但 HR 18%+ 的 Grok 系列就会"自由发挥"到偏离原意。
代码注释 / 跨语言代码迁移——首选 DeepSeek V4 Pro（SuperCLUE 代码生成 63.24 国内最强 + HR 8.6%）。不要用纯翻译思路——直接让模型"理解代码后用目标语言重写"比"逐句翻译注释"准确度高一个量级。

翻译场景五个最常见坑点

长文档"中断幻觉"被严重低估——HHEM 测的是单段摘要任务。翻译一本 30 万字的书时，模型到 80% 处可能"累"了开始略翻、漏译整段。对策：每 5000 字分块翻译并保留 prompt 中的"上下文锚点"（人名 / 术语表），别一次性丢整本。
reasoning 模型不一定更好——HHEM 数据显示 Grok-4-fast-reasoning HR 20.2% > non-reasoning 19.7%；Kimi-K2.5 HR 14.2%。翻译要的是忠实复现，思维链反而让模型"想得太多"，倾向加上自己的理解。除非源文本本身需要推理（数学证明、逻辑题），否则关掉 reasoning 模式。
中英双向不对称——Vectara HHEM 全是英文输入，反映的是模型"英文 → 英文摘要"的保真度。中文 → 英文翻译时国内模型（DeepSeek / Kimi / 豆包）通常更强；英文 → 中文翻译时国际旗舰（Claude / GPT）的中文表达更细腻。
温度参数（temperature）建议 0-0.3——很多开发者用默认 0.7-1.0 跑翻译，结果"译文比原文还精彩"。翻译类调用temperature 设到 0 或 0.2，让模型尽量保守。
"国内代理 Claude"长文档翻译普遍失败——OpenRouter 等代理对单次请求体积有隐性限制（通常 200k token 左右）。翻译 50 万字+ 的整本书必须用国内直连（DeepSeek / Kimi / Grok via xAI 直接 API）或自建代理。

三步决策树

译文准确性 vs 文采——法律 / 医疗 / 合同 / 技术 → GPT-5.4 Nano（HR 3.1% 第一档）；文学 / 学术 / 散文 → Claude Sonnet 4.6 / Gemini 3.1 Pro。
能不能稳定走代理——能 → 首选项不变；不能 → 国内 DeepSeek V4 Pro（综合）/ V4 Flash（批量）/ Kimi K2.6（200k+ 文档）。
单次原文有多长——< 100k token → 任意；100k-1M → 排除 GPT-5.4 Nano（400k）和 Kimi K2.6（262k）；> 1M → 只剩 Grok 4.1 Fast（2M，但 HR 17.8%，必须人工精修）。

LLM 幻觉率排行——HHEM + SuperCLUE 双榜深度对照
LLM 长上下文排行——百万 token 时代的选型清单
国内怎么用 Claude / ChatGPT / Gemini——国际旗舰可访问性实测
GPT-5.4 Nano 详情——翻译场景隐形冠军
DeepSeek V4 Pro 详情——国内综合首选
Claude Sonnet 4.6 详情——文学翻译首选