LLMRank 中文 LLM 综合参考

同家族 · OpenAI 主力升级

GPT-5.4 vs GPT-5.5

OpenAI 主力中档，105 万上下文，比 5.5 便宜一半但智能差距不到 20%

覆盖数据源 2 / 5

做题之王，但写前端不如 Claude——AA 第一、WebDev 只排到第 9

覆盖数据源 3 / 5

TL;DR

5.5 比 5.4 全面提升 12-16 分（智能/Coding/Agentic），但贵一倍且速度还慢 14%——非高难任务用 5.4 已绰绰有余。

关键差异

AA Intelligence：5.5 (60.24) > 5.4 (47.94)，差 12.3 分——同家族跃迁断档
AA Coding：5.5 (59.12) > 5.4 (45.57)，差 13.6 分
AA Agentic：5.5 (74.12) > 5.4 (58.22)，差 15.9 分
输出价：5.5 $30 vs 5.4 $15——5.5 贵一倍
速度：5.4 71.7 token/s > 5.5 61.7，5.4 反而快 16%
LMArena Text：5.5-high 第 8 (1484)，5.4-high 第 9 (1479)——人类盲测仅差 5 分

关键指标逐项对比

AA 数据抓取于 2026-05-17 · 价格抓取于 2026-05-19

指标	GPT-5.4	GPT-5.5	优胜
AA 综合智能（Intelligence Index）越高越好	47.94	60.24	B
AA 代码能力（Coding Index）越高越好	45.57	59.12	B
AA Agent 能力（Agentic Index）越高越好	58.22	74.12	B
输入价格（$ / 百万 token）越低越好	$2.50	$5.00	A
输出价格（$ / 百万 token）越低越好	$15.00	$30.00	A
输出速度（token / 秒）越高越好	71.7	61.7	A
上下文窗口越大越好	1050K	1050K	≈

价格差距：GPT-5.5 输出价比 GPT-5.4 贵 2.00 倍（$30 vs $15）

A = GPT-5.4，B = GPT-5.5。空缺值表示该数据源未收录此模型，不参与优胜判定。

LMArena · 人类盲测各分类

抓取于 2026-05-19

分类	GPT-5.4	GPT-5.5
联网检索（Search）	未进 Top 10	#2 · 1239
视觉理解（Vision）	未进 Top 10	#7 · 1288
综合对话（Text）	未进 Top 10	#8 · 1482
前端开发（WebDev）	未进 Top 10	#9 · 1501

只显示 Top 10 内出现的分类。同一模型不同变体（thinking / search 等）取排名最靠前的。LMArena 是人类盲测两两投票算的 Elo 分。

国内可用性 & OpenRouter 用量

GPT-5.4

国内可用性需代理
OpenRouter 本周未进 Top 10
价格最近核验 2026-05-16

GPT-5.5

国内可用性需代理
OpenRouter 本周未进 Top 10
价格最近核验 2026-05-16

OpenRouter 用量榜抓取于 2026-05-19，反映过去 7 天聚合 API 用量。免费层模型经常冲到榜首，参考时注意是「跑量」而不是「能力」。

怎么选

选 GPT-5.4，如果你：

通用对话/分析、批量调用预算敏感（输出便宜 50%）、速度敏感（71.7 vs 5.5 的 61.7，5.4 快 16%）、不需要顶级 Agent / 复杂数学。

选 GPT-5.5，如果你：

数学/科学竞赛、Agent 编排（Agentic 74.12 同档最高）、复杂代码、需要全球 AA #1 撑门面、不在乎 $30/M 输出。

还在比的其他对

国际线 · OpenAI 新主力 vs Claude 主力

Claude Sonnet 4.6 vs GPT-5.4

跨境 · 国际中档 vs 国内旗舰

DeepSeek V4 Pro vs GPT-5.4

国际线 · xAI 黑马 vs OpenAI 新主力

GPT-5.4 vs Grok 4.3

国际线 · 顶级对决

Claude Opus 4.7 vs GPT-5.5

国际线 · 主力 vs 旗舰

Claude Sonnet 4.6 vs GPT-5.5

国际线 · 长文档 vs 做题

Gemini 3.1 Pro Preview vs GPT-5.5

← 看所有对比回模型库 →