GPT-5.4 Nano
OpenAI全场幻觉率第 2 的小模型,输入 $0.2 输出 $1.25,跑量首选
发布日期:2026-03-17 · 覆盖数据源:3 / 6 (AA · Pricing · HHEM)
OpenAI 的极简档。AA Intelligence 44.04,全美榜第 10,做题成绩不顶尖但断不算差。真正的杀手锏是幻觉率——Vectara HHEM 实测 3.1% 全球第 2,仅次于蚂蚁 finix s1 32b 的 1.8%,比 GPT-5.5 的 9.3% 低三倍。速度 167.1 token/s 第一梯队,输入 $0.2/M、输出 $1.25/M。适合 RAG、批量标注、客服摘要这种「不能瞎说但要便宜」的场景。
关键指标
AA Intelligence
44.0
AA Coding
43.9
Coding #13
AA Agentic
47.6
Tool/Agent 能力
输出价格
$1.25
/ 百万 token
Artificial Analysis · 独立评测
artificialanalysis.ai · 抓取于 2026-05-12| 综合智能(Intelligence Index) | 43.98 |
| 代码能力(Coding Index) | 43.91 |
| Agent 能力(Agentic Index) | 47.60 |
| 输出速度 | 167.1 token/s |
| 推理模式 | 是(reasoning model) |
AA 是独立第三方评测站,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等公开基准。 同一模型不同 reasoning effort 配置 AA 拆开排,本表只取最高分那档。
SuperCLUE · 中文能力测评
未收录:SuperCLUE 3 月榜未单独收录 Nano 档,下次榜单更新可能补入。
API 价格与国内可用性
来源 openrouter.ai · 抓取于 2026-05-14| 输入价格 | $0.20 / 百万 token |
| 输出价格 | $1.25 / 百万 token |
| 上下文窗口 | 400K tokens |
| 国内可用性 | 需代理 |
| 最近核验 | 2026-05-12 |
同档对手价格
| 模型 | 输入 | 输出 | 国内 |
|---|---|---|---|
| MiniMax M2.7 · MiniMax | $0.28 | $1.20 | 可用 |
| Gemini 3.1 Flash Lite · Google | $0.25 | $1.50 | 不稳定 |
| DeepSeek V4 Pro · DeepSeek | $0.43 | $0.87 | 可用 |
| Llama 4 Maverick · Meta | $0.15 | $0.60 | 需代理 |
Vectara HHEM · 幻觉率实测
vectara/hallucination-leaderboard · May 11, 2026| 幻觉率(Hallucination Rate) | 3.1% (越低越好 · 全榜第 2 / 105) |
| 事实一致率 | 96.9% |
| 答题率(Answer Rate) | 100.0% |
| 平均摘要长度 | 144.4 词 |
Vectara HHEM-2.3 是开源的事实一致性评估器。让模型对 7700+ 篇文档(新闻/科技/科学/医疗/法律/体育/商业/教育)做摘要, 温度=0,HHEM 评估摘要是否「捏造原文里没说的内容」。 幻觉率不等于"模型质量"——它只衡量摘要任务的事实一致性,做题强的旗舰模型反而经常更爱"加戏"。 但对 RAG、客服、医疗法律这种「不能瞎说」的场景,这是目前最有参考价值的指标之一。
什么时候选它 / 别选它
适合场景
- RAG / 摘要 / 客服回答——HHEM 幻觉率 3.1%,只比 antgroup/finix 高 1.3 pp
- 大批量任务——输出 $1.25/M 比 GPT-5.5 便宜 24 倍
- 速度敏感场景——167.1 token/s,比 GPT-5.5 快 2.7 倍
不适合场景
- 复杂推理 / 数学题——Intelligence 44.04 落后 GPT-5.5 整整 16 分
- 长链路 Agent——Agentic Index 47.62,明显弱于同家族 Mini/5.5
- 代码主力——Coding 43.86 不及 GPT-5.4 Mini 的 51.50