GPT-5.5

OpenAI

做题之王,但写前端不如 Claude——AA 第一、WebDev 只排到第 9

发布日期:2026-04-23 · 覆盖数据源:3 / 5 (AA · Arena · Pricing)

OpenAI 当前主力。AA Intelligence 60.24 拿下全球第一,Coding Index 59.12 也是榜首,Agentic 74.12 三个综合分都顶。但 LMArena Text 只排到第 8(1484)、WebDev 跌到第 9——「做对题」和「人类觉得回答好」之间的差距,没有比这更典型的案例。$5/M 输入、$30/M 输出,比 Claude Opus 4.7 略贵一档。

关键指标

AA Intelligence
60.2
全球 #1
AA Coding
59.1
Coding #1
AA Agentic
74.1
Tool/Agent 能力
输出价格
$30.00
/ 百万 token

Artificial Analysis · 独立评测

artificialanalysis.ai · 抓取于 2026-05-12
综合智能(Intelligence Index) 60.24
代码能力(Coding Index) 59.12
Agent 能力(Agentic Index) 74.12
输出速度 61.7 token/s
推理模式 是(reasoning model)

AA 是独立第三方评测站,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等公开基准。 同一模型不同 reasoning effort 配置 AA 拆开排,本表只取最高分那档。

LMArena · 人类盲测排名

lmarena.ai · 抓取于 2026-05-12
分类 最佳变体 排名 Elo
联网检索(Search) gpt-5.5-search #2 1242
视觉理解(Vision) gpt-5.5 #7 1288
综合对话(Text) gpt-5.5-high #8 1484
前端开发(WebDev) gpt-5.5-high (codex-harness) #9 1491

只展示 Top 10 内出现的分类与变体。同一分类下若有多个变体(thinking / search 等),只显示排名最靠前的。 LMArena 是 Elo 分,人类盲测两两投票算出来—— 「人类觉得好」≠「客观最强」,但反映真实使用体验。

SuperCLUE · 中文能力测评

未收录:SuperCLUE 3 月榜评的是 GPT-5.4(xhigh)总分 72.48,5.5 还没参评。

API 价格与国内可用性

来源 openrouter.ai · 抓取于 2026-05-12
输入价格 $5.00 / 百万 token
输出价格 $30.00 / 百万 token
上下文窗口 1050K tokens
国内可用性 需代理
最近核验 2026-05-12
同档对手价格
模型 输入 输出 国内
Claude Opus 4.7 · Anthropic $5.00 $25.00 需代理
Claude Sonnet 4.6 · Anthropic $3.00 $15.00 需代理
GPT-5.4 · OpenAI $2.50 $15.00 需代理
Gemini 3.1 Pro Preview · Google $2.00 $12.00 不稳定

什么时候选它 / 别选它

适合场景
  • 数学/科学推理、复杂分析报告、需要严谨链路的研究任务
  • 代码生成的「正确性」分(AA Coding #1),尤其复杂算法、leetcode 类
  • Agent 任务编排——AA Agentic 74.12 是同档最高
不适合场景
  • 前端 UI 开发——LMArena WebDev 排到第 9,Claude 在前 6 占 5 席
  • 极致预算敏感的跑量场景——$30/M 输出价不低
  • 国内无代理——OpenAI 没有大陆节点

不选它的话,看看这些

GPT-5.5 常被拿来比的对