国际线 · 长文档 vs 做题

Gemini 3.1 Pro Preview vs GPT-5.5

TL;DR

做题分 GPT-5.5 高 3 分,但 Gemini 便宜 60% + 速度快 2 倍 + 中文榜第 2——长上下文场景的国际线首选。

关键差异

  • AA Intelligence:GPT-5.5 (60.24) > Gemini 3.1 Pro (57.18),差 3 分
  • 输出价格:Gemini $12 vs GPT-5.5 $30,Gemini 便宜 60%
  • 输出速度:Gemini 129.5 token/s vs GPT-5.5 61.7 token/s,Gemini 快一倍
  • LMArena Text:Gemini 3.1 Pro 第 4,GPT-5.5 第 8——人类盲测 Gemini 也赢

关键指标逐项对比

AA 数据抓取于 2026-05-12 · 价格抓取于 2026-05-12
指标 Gemini 3.1 Pro Preview GPT-5.5 优胜
AA 综合智能(Intelligence Index) 越高越好 57.18 60.24 B
AA 代码能力(Coding Index) 越高越好 55.50 59.12 B
AA Agent 能力(Agentic Index) 越高越好 59.09 74.12 B
输入价格($ / 百万 token) 越低越好 $2.00 $5.00 A
输出价格($ / 百万 token) 越低越好 $12.00 $30.00 A
输出速度(token / 秒) 越高越好 129.5 61.7 A
上下文窗口 越大越好 1049K 1050K B

价格差距:GPT-5.5 输出价比 Gemini 3.1 Pro Preview 贵 2.50 倍($30 vs $12)

A = Gemini 3.1 Pro Preview,B = GPT-5.5。空缺值表示该数据源未收录此模型,不参与优胜判定。

LMArena · 人类盲测各分类

抓取于 2026-05-12
分类 Gemini 3.1 Pro Preview GPT-5.5
联网检索(Search) #6 · 1217 #2 · 1242
综合对话(Text) #4 · 1492 #8 · 1484
视觉理解(Vision) #10 · 1277 #7 · 1288
前端开发(WebDev) 未进 Top 10 #9 · 1491

只显示 Top 10 内出现的分类。同一模型不同变体(thinking / search 等)取排名最靠前的。LMArena 是人类盲测两两投票算的 Elo 分。

SuperCLUE · 中文能力测评

2026年3月
维度 Gemini 3.1 Pro Preview GPT-5.5
收录条目 Gemini-3.1-Pro-Preview 未收录
综合总分 76.69 · 榜单 #2
代码生成 69.78
数学推理 92.44
智能体(任务规划) 78.96
精确指令遵循 56.76

GPT-5.5 未收录:SuperCLUE 3 月榜评的是 GPT-5.4(xhigh)总分 72.48,5.5 还没参评。

国内可用性 & OpenRouter 用量

Gemini 3.1 Pro Preview
  • 国内可用性 不稳定
  • OpenRouter 本周 未进 Top 10
  • 价格最近核验 2026-05-12
GPT-5.5
  • 国内可用性 需代理
  • OpenRouter 本周 未进 Top 10
  • 价格最近核验 2026-05-12

OpenRouter 用量榜抓取于 2026-05-12,反映过去 7 天聚合 API 用量。免费层模型经常冲到榜首,参考时注意是「跑量」而不是「能力」。

怎么选

Gemini 3.1 Pro Preview,如果你:

1M 上下文长文档 RAG、对响应速度敏感、中文场景(SuperCLUE 76.69)、预算敏感。

GPT-5.5,如果你:

做题/Agent 顶级(Coding 59.12 / Agentic 74.12 都是最高)、不在乎 $30/M 输出价。

还在比的其他对