GPT-5.4 Nano

OpenAI

全场幻觉率第 2 的小模型,输入 $0.2 输出 $1.25,跑量首选

发布日期:2026-03-17 · 覆盖数据源:3 / 6 (AA · Pricing · HHEM)

OpenAI 的极简档。AA Intelligence 44.04,全美榜第 10,做题成绩不顶尖但断不算差。真正的杀手锏是幻觉率——Vectara HHEM 实测 3.1% 全球第 2,仅次于蚂蚁 finix s1 32b 的 1.8%,比 GPT-5.5 的 9.3% 低三倍。速度 167.1 token/s 第一梯队,输入 $0.2/M、输出 $1.25/M。适合 RAG、批量标注、客服摘要这种「不能瞎说但要便宜」的场景。

关键指标

AA Intelligence
44.0
AA Coding
43.9
Coding #13
AA Agentic
47.6
Tool/Agent 能力
输出价格
$1.25
/ 百万 token

Artificial Analysis · 独立评测

artificialanalysis.ai · 抓取于 2026-05-12
综合智能(Intelligence Index) 43.98
代码能力(Coding Index) 43.91
Agent 能力(Agentic Index) 47.60
输出速度 167.1 token/s
推理模式 是(reasoning model)

AA 是独立第三方评测站,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等公开基准。 同一模型不同 reasoning effort 配置 AA 拆开排,本表只取最高分那档。

SuperCLUE · 中文能力测评

未收录:SuperCLUE 3 月榜未单独收录 Nano 档,下次榜单更新可能补入。

API 价格与国内可用性

来源 openrouter.ai · 抓取于 2026-05-14
输入价格 $0.20 / 百万 token
输出价格 $1.25 / 百万 token
上下文窗口 400K tokens
国内可用性 需代理
最近核验 2026-05-12
同档对手价格
模型 输入 输出 国内
MiniMax M2.7 · MiniMax $0.28 $1.20 可用
Gemini 3.1 Flash Lite · Google $0.25 $1.50 不稳定
DeepSeek V4 Pro · DeepSeek $0.43 $0.87 可用
Llama 4 Maverick · Meta $0.15 $0.60 需代理

Vectara HHEM · 幻觉率实测

vectara/hallucination-leaderboard · May 11, 2026
幻觉率(Hallucination Rate) 3.1% (越低越好 · 全榜第 2 / 105)
事实一致率 96.9%
答题率(Answer Rate) 100.0%
平均摘要长度 144.4 词

Vectara HHEM-2.3 是开源的事实一致性评估器。让模型对 7700+ 篇文档(新闻/科技/科学/医疗/法律/体育/商业/教育)做摘要, 温度=0,HHEM 评估摘要是否「捏造原文里没说的内容」。 幻觉率不等于"模型质量"——它只衡量摘要任务的事实一致性,做题强的旗舰模型反而经常更爱"加戏"。 但对 RAG、客服、医疗法律这种「不能瞎说」的场景,这是目前最有参考价值的指标之一。

什么时候选它 / 别选它

适合场景
  • RAG / 摘要 / 客服回答——HHEM 幻觉率 3.1%,只比 antgroup/finix 高 1.3 pp
  • 大批量任务——输出 $1.25/M 比 GPT-5.5 便宜 24 倍
  • 速度敏感场景——167.1 token/s,比 GPT-5.5 快 2.7 倍
不适合场景
  • 复杂推理 / 数学题——Intelligence 44.04 落后 GPT-5.5 整整 16 分
  • 长链路 Agent——Agentic Index 47.62,明显弱于同家族 Mini/5.5
  • 代码主力——Coding 43.86 不及 GPT-5.4 Mini 的 51.50

不选它的话,看看这些