同家族 · OpenAI 主力升级

GPT-5.4 vs GPT-5.5

TL;DR

5.5 比 5.4 全面提升 12-16 分(智能/Coding/Agentic),但贵一倍且速度还慢 14%——非高难任务用 5.4 已绰绰有余。

关键差异

  • AA Intelligence:5.5 (60.24) > 5.4 (47.94),差 12.3 分——同家族跃迁断档
  • AA Coding:5.5 (59.12) > 5.4 (45.57),差 13.6 分
  • AA Agentic:5.5 (74.12) > 5.4 (58.22),差 15.9 分
  • 输出价:5.5 $30 vs 5.4 $15——5.5 贵一倍
  • 速度:5.4 71.7 token/s > 5.5 61.7,5.4 反而快 16%
  • LMArena Text:5.5-high 第 8 (1484),5.4-high 第 9 (1479)——人类盲测仅差 5 分

关键指标逐项对比

AA 数据抓取于 2026-05-17 · 价格抓取于 2026-05-19
指标 GPT-5.4 GPT-5.5 优胜
AA 综合智能(Intelligence Index) 越高越好 47.94 60.24 B
AA 代码能力(Coding Index) 越高越好 45.57 59.12 B
AA Agent 能力(Agentic Index) 越高越好 58.22 74.12 B
输入价格($ / 百万 token) 越低越好 $2.50 $5.00 A
输出价格($ / 百万 token) 越低越好 $15.00 $30.00 A
输出速度(token / 秒) 越高越好 71.7 61.7 A
上下文窗口 越大越好 1050K 1050K

价格差距:GPT-5.5 输出价比 GPT-5.4 贵 2.00 倍($30 vs $15)

A = GPT-5.4,B = GPT-5.5。空缺值表示该数据源未收录此模型,不参与优胜判定。

LMArena · 人类盲测各分类

抓取于 2026-05-19
分类 GPT-5.4 GPT-5.5
联网检索(Search) 未进 Top 10 #2 · 1239
视觉理解(Vision) 未进 Top 10 #7 · 1288
综合对话(Text) 未进 Top 10 #8 · 1482
前端开发(WebDev) 未进 Top 10 #9 · 1501

只显示 Top 10 内出现的分类。同一模型不同变体(thinking / search 等)取排名最靠前的。LMArena 是人类盲测两两投票算的 Elo 分。

国内可用性 & OpenRouter 用量

GPT-5.4
  • 国内可用性 需代理
  • OpenRouter 本周 未进 Top 10
  • 价格最近核验 2026-05-16
GPT-5.5
  • 国内可用性 需代理
  • OpenRouter 本周 未进 Top 10
  • 价格最近核验 2026-05-16

OpenRouter 用量榜抓取于 2026-05-19,反映过去 7 天聚合 API 用量。免费层模型经常冲到榜首,参考时注意是「跑量」而不是「能力」。

怎么选

GPT-5.4,如果你:

通用对话/分析、批量调用预算敏感(输出便宜 50%)、速度敏感(71.7 vs 5.5 的 61.7,5.4 快 16%)、不需要顶级 Agent / 复杂数学。

GPT-5.5,如果你:

数学/科学竞赛、Agent 编排(Agentic 74.12 同档最高)、复杂代码、需要全球 AA #1 撑门面、不在乎 $30/M 输出。

还在比的其他对