2026-05-15 · 场景化选型

AI 翻译选什么 LLM?文档 / 字幕 / 代码注释场景实测

翻译跟"聊天"完全是两回事——它要的是不乱发挥的忠实度、能吞整本书的上下文、能驾驭中英文之间的微妙差异,以及大量输入下还扛得住的价格。本文用 Vectara HHEM 摘要幻觉率(量化"敢不敢乱编")+ OpenRouter context_length + 各厂商官方 API 价格三个独立来源交叉,给出 4 个分场景推荐。

一句话结论

  • 忠实度最高 + 便宜的隐形冠军——GPT-5.4 Nano(HHEM 幻觉率 3.1% 全场仅次于蚂蚁金融小模型,400k 上下文,输入 $0.2 / 输出 $1.25)。翻译场景最被低估的选择
  • 国内综合最优——DeepSeek V4 Pro(HHEM 8.6% 国内最低,1M 上下文,$0.435 / $0.87,注册即用免代理)。
  • 大型项目 / 整本书——Grok 4.1 Fast(2M 上下文,$0.2 / $0.5)能塞下整本《红楼梦》还有余量,但 HR 17.8% 偏高,适合做初稿翻译后人工精修
  • 高端文学 / 学术翻译——Claude Sonnet 4.6(HR 10.6% + 1M 上下文 + 中英行文细腻),$3 / $15。
  • 字幕 / 短文本批量——DeepSeek V4 Flash($0.126 / $0.252,1M 上下文)配自动术语表 prompt 是性价比天花板。

翻译场景看哪四个维度

  1. 幻觉率(HHEM Hallucination Rate)——翻译时模型敢不敢自由发挥、删掉看不懂的句子、补一些"听起来更合理"的内容。HHEM 越低越好。
  2. 上下文窗口——一次能吞多少原文。小说一章约 1-2 万字(≈ 2-4k token),整本书 10-30 万字(≈ 20-60k token),多语 PDF 技术文档可能 100k+。
  3. 输入价——翻译是输入重于输出的活:原文要喂进去,译文长度相近,所以输入单价比输出单价对总成本影响更大。看 input_usd_per_million。
  4. 国内可用性——长稳调用是关键。Claude / GPT / Gemini 走代理在做长文档翻译时延迟和断流频繁,国内直连模型在大批量场景实操体验更稳。

数据来源:Vectara HHEM-2.3(May 11, 2026 更新)+ SuperCLUE 通用基准(2026年3月,2026-05-12)+ 各厂商官方 API 价目表(2026-05-14 复核)。

翻译综合榜:12 款主力选手对比

以下排序按"翻译权重分"——忠实度(100-HR)45% + 上下文规模 25% + 国内可用 15% + 价格档 15%。这是本场景下的视角排序,不是 HHEM 官方榜

# 模型 HR 上下文 输入价 输出价
1
DeepSeek V4 Pro
国内可用 DeepSeek
8.6% 1M $0.43 $0.87
2
GLM 5
国内可用 Z.ai (智谱)
10.1% 203k $0.6 $1.92
3
Kimi K2.6
国内可用 Moonshot AI
10.8% 262k $0.74 $3.50
4
MiniMax M2.7
国内可用 MiniMax
12.9% 197k $0.28 $1.20
5
Gemini 3.1 Flash Lite
国内不稳 Google
8.2% 1M $0.25 $1.50
6
Llama 4 Maverick
需代理 Meta
8.2% 1M $0.15 $0.6
7
Gemini 3 Flash Preview
国内不稳 Google
13.5% 1M $0.5 $3.00
8
GPT-5.4 Nano
需代理 OpenAI
3.1% 400k $0.2 $1.25
9
Gemini 3.1 Pro Preview
国内不稳 Google
10.4% 1M $2.00 $12.00
10
GPT-5.4 Mini
需代理 OpenAI
5.5% 400k $0.75 $4.50
11
Grok 4.1 Fast
需代理 xAI
17.8% 2M $0.2 $0.5
12
GPT-5.4
需代理 OpenAI
7.0% 1.1M $2.50 $15.00

表头第一行的 GPT-5.4 Nano HR 3.1% 是这张榜最大的反共识——它不是 OpenAI 旗舰(GPT-5.5 HR 9.3%),却在保真度上吊打全场。代价:上下文 400k 比旗舰 1M 小一截,不能塞整本书。

大批量 / 整本文档翻译性价比

要翻 10 万字以上的合同、PDF 技术文档、整本书——上下文要够大(≥ 1M)且 HR 不能太高(≤ 12%)。下面按输入价升序排:

模型 输入价 上下文 HR 国内可用
Llama 4 Maverick
Meta
$0.15 1M 8.2% 需代理
Gemini 3.1 Flash Lite
Google
$0.25 1M 8.2% 国内不稳
DeepSeek V4 Pro
DeepSeek
$0.43 1M 8.6% 国内可用
Gemini 3.1 Pro Preview
Google
$2.00 1M 10.4% 国内不稳
GPT-5.4
OpenAI
$2.50 1.1M 7.0% 需代理
Claude Sonnet 4.6
Anthropic
$3.00 1M 10.6% 需代理
GPT-5.5
OpenAI
$5.00 1.1M 9.3% 需代理
Claude Opus 4.7
Anthropic
$5.00 1M 12.0% 需代理

DeepSeek V4 Flash $0.126 输入是同档最便宜——翻译 30 万字技术文档约 200k token,输入成本仅 $0.025(≈ ¥0.18)。前提是接受 HR 11.x% 的轻微"自由发挥",重要术语手动整理 glossary。

严控错译档:法律 / 医疗 / 合同 / 招股书

这类场景"翻错一个词就完蛋"——HR ≤ 10% 是底线。下面按 HR 升序,分数越低越严谨:

模型 HR 上下文 输入价 备注
GPT-5.4 Nano
OpenAI
3.1% 400k $0.2 需代理
GPT-5.4 Mini
OpenAI
5.5% 400k $0.75 需代理
GPT-5.4
OpenAI
7.0% 1.1M $2.50 需代理
Gemini 3.1 Flash Lite
Google
8.2% 1M $0.25 国内不稳
Llama 4 Maverick
Meta
8.2% 1M $0.15 需代理
DeepSeek V4 Pro
DeepSeek
8.6% 1M $0.43 国内可用
GPT-5.5
OpenAI
9.3% 1.1M $5.00 需代理
Claude Haiku 4.5
Anthropic
9.8% 200k $1.00 需代理

关键观察:所有 Claude 系列 HR 都在 10.3-12.0% 之间,做严控错译翻译时不是最优解——尽管它中文行文流畅。如果你做的是法律 / 医疗这种"准确性 > 文采"的活,GPT-5.4 Nano / GPT-5.4 Mini / DeepSeek V4 Pro 都比 Claude 更稳。

四个细分场景的具体选型

  1. 技术文档翻译(API 文档 / 用户手册 / SDK 说明)——首选 GPT-5.4 Nano(HR 3.1% + 400k 上下文足够单章节)或 DeepSeek V4 Pro(国内免代理 + HR 8.6%)。Claude 在这类场景中等水平,过于"润色"反而把代码块的术语翻译得不准。
  2. 字幕 / 短文本批量翻译——首选 DeepSeek V4 Flash($0.252 输出,1M 上下文 + 11.x% HR 可接受)。配合 prompt 里"保留专有名词原文 + 输出 SRT 时间戳"模板,单集 1 小时美剧字幕约 $0.005 ≈ ¥0.04。
  3. 文学 / 学术翻译(小说 / 论文 / 散文)——首选 Claude Sonnet 4.6Gemini 3.1 Pro。这类场景"翻译质量 > HR"——读者会接受译者轻微改写以保持文气,但 HR 18%+ 的 Grok 系列就会"自由发挥"到偏离原意。
  4. 代码注释 / 跨语言代码迁移——首选 DeepSeek V4 Pro(SuperCLUE 代码生成 63.24 国内最强 + HR 8.6%)。不要用纯翻译思路——直接让模型"理解代码后用目标语言重写"比"逐句翻译注释"准确度高一个量级。

翻译场景五个最常见坑点

  1. 长文档"中断幻觉"被严重低估——HHEM 测的是单段摘要任务。翻译一本 30 万字的书时,模型到 80% 处可能"累"了开始略翻、漏译整段。对策:每 5000 字分块翻译并保留 prompt 中的"上下文锚点"(人名 / 术语表),别一次性丢整本。
  2. reasoning 模型不一定更好——HHEM 数据显示 Grok-4-fast-reasoning HR 20.2% > non-reasoning 19.7%;Kimi-K2.5 HR 14.2%。翻译要的是忠实复现,思维链反而让模型"想得太多",倾向加上自己的理解。除非源文本本身需要推理(数学证明、逻辑题),否则关掉 reasoning 模式。
  3. 中英双向不对称——Vectara HHEM 全是英文输入,反映的是模型"英文 → 英文摘要"的保真度。中文 → 英文翻译时国内模型(DeepSeek / Kimi / 豆包)通常更强;英文 → 中文翻译时国际旗舰(Claude / GPT)的中文表达更细腻。
  4. 温度参数(temperature)建议 0-0.3——很多开发者用默认 0.7-1.0 跑翻译,结果"译文比原文还精彩"。翻译类调用temperature 设到 0 或 0.2,让模型尽量保守。
  5. "国内代理 Claude"长文档翻译普遍失败——OpenRouter 等代理对单次请求体积有隐性限制(通常 200k token 左右)。翻译 50 万字+ 的整本书必须用国内直连(DeepSeek / Kimi / Grok via xAI 直接 API)或自建代理。

三步决策树

  1. 译文准确性 vs 文采——法律 / 医疗 / 合同 / 技术 → GPT-5.4 Nano(HR 3.1% 第一档);文学 / 学术 / 散文 → Claude Sonnet 4.6 / Gemini 3.1 Pro。
  2. 能不能稳定走代理——能 → 首选项不变;不能 → 国内 DeepSeek V4 Pro(综合)/ V4 Flash(批量)/ Kimi K2.6(200k+ 文档)。
  3. 单次原文有多长——< 100k token → 任意;100k-1M → 排除 GPT-5.4 Nano(400k)和 Kimi K2.6(262k);> 1M → 只剩 Grok 4.1 Fast(2M,但 HR 17.8%,必须人工精修)。