国际线 · 长文档 vs 做题
Gemini 3.1 Pro Preview vs GPT-5.5
TL;DR
做题分 GPT-5.5 高 3 分,但 Gemini 便宜 60% + 速度快 2 倍 + 中文榜第 2——长上下文场景的国际线首选。
关键差异
- AA Intelligence:GPT-5.5 (60.24) > Gemini 3.1 Pro (57.18),差 3 分
- 输出价格:Gemini $12 vs GPT-5.5 $30,Gemini 便宜 60%
- 输出速度:Gemini 129.5 token/s vs GPT-5.5 61.7 token/s,Gemini 快一倍
- LMArena Text:Gemini 3.1 Pro 第 4,GPT-5.5 第 8——人类盲测 Gemini 也赢
关键指标逐项对比
AA 数据抓取于 2026-05-12 · 价格抓取于 2026-05-12| 指标 | Gemini 3.1 Pro Preview | GPT-5.5 | 优胜 |
|---|---|---|---|
| AA 综合智能(Intelligence Index) 越高越好 | 57.18 | 60.24 | B |
| AA 代码能力(Coding Index) 越高越好 | 55.50 | 59.12 | B |
| AA Agent 能力(Agentic Index) 越高越好 | 59.09 | 74.12 | B |
| 输入价格($ / 百万 token) 越低越好 | $2.00 | $5.00 | A |
| 输出价格($ / 百万 token) 越低越好 | $12.00 | $30.00 | A |
| 输出速度(token / 秒) 越高越好 | 129.5 | 61.7 | A |
| 上下文窗口 越大越好 | 1049K | 1050K | B |
价格差距:GPT-5.5 输出价比 Gemini 3.1 Pro Preview 贵 2.50 倍($30 vs $12)
A = Gemini 3.1 Pro Preview,B = GPT-5.5。空缺值表示该数据源未收录此模型,不参与优胜判定。
LMArena · 人类盲测各分类
抓取于 2026-05-12| 分类 | Gemini 3.1 Pro Preview | GPT-5.5 |
|---|---|---|
| 联网检索(Search) | #6 · 1217 | #2 · 1242 |
| 综合对话(Text) | #4 · 1492 | #8 · 1484 |
| 视觉理解(Vision) | #10 · 1277 | #7 · 1288 |
| 前端开发(WebDev) | 未进 Top 10 | #9 · 1491 |
只显示 Top 10 内出现的分类。同一模型不同变体(thinking / search 等)取排名最靠前的。LMArena 是人类盲测两两投票算的 Elo 分。
SuperCLUE · 中文能力测评
2026年3月| 维度 | Gemini 3.1 Pro Preview | GPT-5.5 |
|---|---|---|
| 收录条目 | Gemini-3.1-Pro-Preview | 未收录 |
| 综合总分 | 76.69 · 榜单 #2 | — |
| 代码生成 | 69.78 | — |
| 数学推理 | 92.44 | — |
| 智能体(任务规划) | 78.96 | — |
| 精确指令遵循 | 56.76 | — |
GPT-5.5 未收录:SuperCLUE 3 月榜评的是 GPT-5.4(xhigh)总分 72.48,5.5 还没参评。
国内可用性 & OpenRouter 用量
Gemini 3.1 Pro Preview
- 国内可用性 不稳定
- OpenRouter 本周 未进 Top 10
- 价格最近核验 2026-05-12
GPT-5.5
- 国内可用性 需代理
- OpenRouter 本周 未进 Top 10
- 价格最近核验 2026-05-12
OpenRouter 用量榜抓取于 2026-05-12,反映过去 7 天聚合 API 用量。免费层模型经常冲到榜首,参考时注意是「跑量」而不是「能力」。
怎么选
选 Gemini 3.1 Pro Preview,如果你:
1M 上下文长文档 RAG、对响应速度敏感、中文场景(SuperCLUE 76.69)、预算敏感。
选 GPT-5.5,如果你:
做题/Agent 顶级(Coding 59.12 / Agentic 74.12 都是最高)、不在乎 $30/M 输出价。