AI 翻译选什么 LLM?文档 / 字幕 / 代码注释场景实测
翻译跟"聊天"完全是两回事——它要的是不乱发挥的忠实度、能吞整本书的上下文、能驾驭中英文之间的微妙差异,以及大量输入下还扛得住的价格。本文用 Vectara HHEM 摘要幻觉率(量化"敢不敢乱编")+ OpenRouter context_length + 各厂商官方 API 价格三个独立来源交叉,给出 4 个分场景推荐。
一句话结论
- 忠实度最高 + 便宜的隐形冠军——GPT-5.4 Nano(HHEM 幻觉率 3.1% 全场仅次于蚂蚁金融小模型,400k 上下文,输入 $0.2 / 输出 $1.25)。翻译场景最被低估的选择。
- 国内综合最优——DeepSeek V4 Pro(HHEM 8.6% 国内最低,1M 上下文,$0.435 / $0.87,注册即用免代理)。
- 大型项目 / 整本书——Grok 4.1 Fast(2M 上下文,$0.2 / $0.5)能塞下整本《红楼梦》还有余量,但 HR 17.8% 偏高,适合做初稿翻译后人工精修。
- 高端文学 / 学术翻译——Claude Sonnet 4.6(HR 10.6% + 1M 上下文 + 中英行文细腻),$3 / $15。
- 字幕 / 短文本批量——DeepSeek V4 Flash($0.126 / $0.252,1M 上下文)配自动术语表 prompt 是性价比天花板。
翻译场景看哪四个维度
- 幻觉率(HHEM Hallucination Rate)——翻译时模型敢不敢自由发挥、删掉看不懂的句子、补一些"听起来更合理"的内容。HHEM 越低越好。
- 上下文窗口——一次能吞多少原文。小说一章约 1-2 万字(≈ 2-4k token),整本书 10-30 万字(≈ 20-60k token),多语 PDF 技术文档可能 100k+。
- 输入价——翻译是输入重于输出的活:原文要喂进去,译文长度相近,所以输入单价比输出单价对总成本影响更大。看 input_usd_per_million。
- 国内可用性——长稳调用是关键。Claude / GPT / Gemini 走代理在做长文档翻译时延迟和断流频繁,国内直连模型在大批量场景实操体验更稳。
数据来源:Vectara HHEM-2.3(May 11, 2026 更新)+ SuperCLUE 通用基准(2026年3月,2026-05-12)+ 各厂商官方 API 价目表(2026-05-14 复核)。
翻译综合榜:12 款主力选手对比
以下排序按"翻译权重分"——忠实度(100-HR)45% + 上下文规模 25% + 国内可用 15% + 价格档 15%。这是本场景下的视角排序,不是 HHEM 官方榜。
| # | 模型 | HR | 上下文 | 输入价 | 输出价 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Pro 国内可用 DeepSeek | 8.6% | 1M | $0.43 | $0.87 |
| 2 | GLM 5 国内可用 Z.ai (智谱) | 10.1% | 203k | $0.6 | $1.92 |
| 3 | Kimi K2.6 国内可用 Moonshot AI | 10.8% | 262k | $0.74 | $3.50 |
| 4 | MiniMax M2.7 国内可用 MiniMax | 12.9% | 197k | $0.28 | $1.20 |
| 5 | Gemini 3.1 Flash Lite 国内不稳 Google | 8.2% | 1M | $0.25 | $1.50 |
| 6 | Llama 4 Maverick 需代理 Meta | 8.2% | 1M | $0.15 | $0.6 |
| 7 | Gemini 3 Flash Preview 国内不稳 Google | 13.5% | 1M | $0.5 | $3.00 |
| 8 | GPT-5.4 Nano 需代理 OpenAI | 3.1% | 400k | $0.2 | $1.25 |
| 9 | Gemini 3.1 Pro Preview 国内不稳 Google | 10.4% | 1M | $2.00 | $12.00 |
| 10 | GPT-5.4 Mini 需代理 OpenAI | 5.5% | 400k | $0.75 | $4.50 |
| 11 | Grok 4.1 Fast 需代理 xAI | 17.8% | 2M | $0.2 | $0.5 |
| 12 | GPT-5.4 需代理 OpenAI | 7.0% | 1.1M | $2.50 | $15.00 |
表头第一行的 GPT-5.4 Nano HR 3.1% 是这张榜最大的反共识——它不是 OpenAI 旗舰(GPT-5.5 HR 9.3%),却在保真度上吊打全场。代价:上下文 400k 比旗舰 1M 小一截,不能塞整本书。
大批量 / 整本文档翻译性价比
要翻 10 万字以上的合同、PDF 技术文档、整本书——上下文要够大(≥ 1M)且 HR 不能太高(≤ 12%)。下面按输入价升序排:
| 模型 | 输入价 | 上下文 | HR | 国内可用 |
|---|---|---|---|---|
| Llama 4 Maverick Meta | $0.15 | 1M | 8.2% | 需代理 |
| Gemini 3.1 Flash Lite Google | $0.25 | 1M | 8.2% | 国内不稳 |
| DeepSeek V4 Pro DeepSeek | $0.43 | 1M | 8.6% | 国内可用 |
| Gemini 3.1 Pro Preview Google | $2.00 | 1M | 10.4% | 国内不稳 |
| GPT-5.4 OpenAI | $2.50 | 1.1M | 7.0% | 需代理 |
| Claude Sonnet 4.6 Anthropic | $3.00 | 1M | 10.6% | 需代理 |
| GPT-5.5 OpenAI | $5.00 | 1.1M | 9.3% | 需代理 |
| Claude Opus 4.7 Anthropic | $5.00 | 1M | 12.0% | 需代理 |
DeepSeek V4 Flash $0.126 输入是同档最便宜——翻译 30 万字技术文档约 200k token,输入成本仅 $0.025(≈ ¥0.18)。前提是接受 HR 11.x% 的轻微"自由发挥",重要术语手动整理 glossary。
严控错译档:法律 / 医疗 / 合同 / 招股书
这类场景"翻错一个词就完蛋"——HR ≤ 10% 是底线。下面按 HR 升序,分数越低越严谨:
| 模型 | HR | 上下文 | 输入价 | 备注 |
|---|---|---|---|---|
| GPT-5.4 Nano OpenAI | 3.1% | 400k | $0.2 | 需代理 |
| GPT-5.4 Mini OpenAI | 5.5% | 400k | $0.75 | 需代理 |
| GPT-5.4 OpenAI | 7.0% | 1.1M | $2.50 | 需代理 |
| Gemini 3.1 Flash Lite Google | 8.2% | 1M | $0.25 | 国内不稳 |
| Llama 4 Maverick Meta | 8.2% | 1M | $0.15 | 需代理 |
| DeepSeek V4 Pro DeepSeek | 8.6% | 1M | $0.43 | 国内可用 |
| GPT-5.5 OpenAI | 9.3% | 1.1M | $5.00 | 需代理 |
| Claude Haiku 4.5 Anthropic | 9.8% | 200k | $1.00 | 需代理 |
关键观察:所有 Claude 系列 HR 都在 10.3-12.0% 之间,做严控错译翻译时不是最优解——尽管它中文行文流畅。如果你做的是法律 / 医疗这种"准确性 > 文采"的活,GPT-5.4 Nano / GPT-5.4 Mini / DeepSeek V4 Pro 都比 Claude 更稳。
四个细分场景的具体选型
- 技术文档翻译(API 文档 / 用户手册 / SDK 说明)——首选 GPT-5.4 Nano(HR 3.1% + 400k 上下文足够单章节)或 DeepSeek V4 Pro(国内免代理 + HR 8.6%)。Claude 在这类场景中等水平,过于"润色"反而把代码块的术语翻译得不准。
- 字幕 / 短文本批量翻译——首选 DeepSeek V4 Flash($0.252 输出,1M 上下文 + 11.x% HR 可接受)。配合 prompt 里"保留专有名词原文 + 输出 SRT 时间戳"模板,单集 1 小时美剧字幕约 $0.005 ≈ ¥0.04。
- 文学 / 学术翻译(小说 / 论文 / 散文)——首选 Claude Sonnet 4.6 或 Gemini 3.1 Pro。这类场景"翻译质量 > HR"——读者会接受译者轻微改写以保持文气,但 HR 18%+ 的 Grok 系列就会"自由发挥"到偏离原意。
- 代码注释 / 跨语言代码迁移——首选 DeepSeek V4 Pro(SuperCLUE 代码生成 63.24 国内最强 + HR 8.6%)。不要用纯翻译思路——直接让模型"理解代码后用目标语言重写"比"逐句翻译注释"准确度高一个量级。
翻译场景五个最常见坑点
- 长文档"中断幻觉"被严重低估——HHEM 测的是单段摘要任务。翻译一本 30 万字的书时,模型到 80% 处可能"累"了开始略翻、漏译整段。对策:每 5000 字分块翻译并保留 prompt 中的"上下文锚点"(人名 / 术语表),别一次性丢整本。
- reasoning 模型不一定更好——HHEM 数据显示 Grok-4-fast-reasoning HR 20.2% > non-reasoning 19.7%;Kimi-K2.5 HR 14.2%。翻译要的是忠实复现,思维链反而让模型"想得太多",倾向加上自己的理解。除非源文本本身需要推理(数学证明、逻辑题),否则关掉 reasoning 模式。
- 中英双向不对称——Vectara HHEM 全是英文输入,反映的是模型"英文 → 英文摘要"的保真度。中文 → 英文翻译时国内模型(DeepSeek / Kimi / 豆包)通常更强;英文 → 中文翻译时国际旗舰(Claude / GPT)的中文表达更细腻。
- 温度参数(temperature)建议 0-0.3——很多开发者用默认 0.7-1.0 跑翻译,结果"译文比原文还精彩"。翻译类调用temperature 设到 0 或 0.2,让模型尽量保守。
- "国内代理 Claude"长文档翻译普遍失败——OpenRouter 等代理对单次请求体积有隐性限制(通常 200k token 左右)。翻译 50 万字+ 的整本书必须用国内直连(DeepSeek / Kimi / Grok via xAI 直接 API)或自建代理。
三步决策树
- 译文准确性 vs 文采——法律 / 医疗 / 合同 / 技术 → GPT-5.4 Nano(HR 3.1% 第一档);文学 / 学术 / 散文 → Claude Sonnet 4.6 / Gemini 3.1 Pro。
- 能不能稳定走代理——能 → 首选项不变;不能 → 国内 DeepSeek V4 Pro(综合)/ V4 Flash(批量)/ Kimi K2.6(200k+ 文档)。
- 单次原文有多长——< 100k token → 任意;100k-1M → 排除 GPT-5.4 Nano(400k)和 Kimi K2.6(262k);> 1M → 只剩 Grok 4.1 Fast(2M,但 HR 17.8%,必须人工精修)。
相关阅读
- LLM 幻觉率排行——HHEM + SuperCLUE 双榜深度对照
- LLM 长上下文排行——百万 token 时代的选型清单
- 国内怎么用 Claude / ChatGPT / Gemini——国际旗舰可访问性实测
- GPT-5.4 Nano 详情——翻译场景隐形冠军
- DeepSeek V4 Pro 详情——国内综合首选
- Claude Sonnet 4.6 详情——文学翻译首选