5 个独立数据源 · 2026-05-12 更新

中文用户的 LLM 综合参考

LMArena 看人类偏好、Artificial Analysis 看国际评测、SuperCLUE 看中文能力、OpenRouter 看真实用量、各家官网比价格。 五份榜单互相独立、互相印证,不替你做"综合分"。

5
数据来源
12
AA 智能榜
24
SuperCLUE 入榜
24
价格对比
10
国内直接可用

LMArena 对战 Elo(人类偏好)

来源 lmarena.ai · 抓取于 2026-05-12 · 4 天前更新

分数越高 = 盲测中越多用户选它
综合对话
Text Arena
1 claude-opus-4-7 (thinking) 1503
2 claude-opus-4-6 (thinking) 1502
3 claude-opus-4-6 1498
4 gemini-3.1-pro-preview 1492
5 claude-opus-4-7 1491
6 Meta muse-spark 1490
7 gemini-3-pro 1486
8 gpt-5.5-high 1484
9 grok-4.20-beta1 1480
10 gpt-5.2-chat-latest-20260210 1477
前端编程
WebDev Arena
1 claude-opus-4-7 (thinking) 1570
2 claude-opus-4-7 1560
3 claude-opus-4-6 (thinking) 1549
4 claude-opus-4-6 1544
5 glm-5.1 1531
6 claude-sonnet-4-6 1524
7 kimi-k2.6 1523
8 Meta muse-spark 1509
9 gpt-5.5-high (codex-harness) 1491
10 claude-opus-4-5-20251101-thinking-32k 1490
视觉理解
Vision Arena
1 claude-opus-4-7 (thinking) 1305
2 claude-opus-4-7 1301
3 claude-opus-4-6 (thinking) 1300
4 Meta muse-spark 1298
5 claude-opus-4-6 1291
6 gemini-3-pro 1288
7 gpt-5.5 1288
8 gpt-5.5-high 1281
9 gpt-5.2-chat-latest-20260210 1279
10 gemini-3.1-pro-preview 1277

LMArena(前 LMSYS Chatbot Arena)让真人对两个匿名模型同问题打分,用类似下棋的 Elo 系统算分。 偏好高 ≠ 实际效果好——很多人偏爱回答冗长、礼貌的模型,但你的实际场景可能恰恰相反。

Artificial Analysis · 独立评测综合分

来源 artificialanalysis.ai · 抓取于 2026-05-12 · 第三方评测站

Intelligence 综合自 GPQA / HLE / MMLU-Pro 等基准
全球 Top 12 · 综合智能
Intelligence Index
# 模型 智能
1
GPT-5.5
OpenAI
60.2
2
Claude Opus 4.7
Anthropic
57.3
3
Gemini 3.1 Pro Preview
Google
57.2
4
Kimi K2.6
Kimi · 🇨🇳
53.9
5
MiMo-V2.5-Pro
Xiaomi · 🇨🇳
53.8
6
GPT-5.3 Codex
OpenAI
53.6
7
Grok 4.3
xAI
53.2
8
Qwen3.6 Max Preview
Alibaba · 🇨🇳
51.8
9
Claude Sonnet 4.6
Anthropic
51.7
10
DeepSeek V4 Pro
DeepSeek · 🇨🇳
51.5
11
GLM-5.1
Z AI · 🇨🇳
51.4
12
Qwen3.6 Plus
Alibaba · 🇨🇳
50.0
中国厂商 Top 10
含编程 / Agent 子维度
# 模型 智能
1
Kimi K2.6
Kimi
53.9
2
MiMo-V2.5-Pro
Xiaomi
53.8
3
Qwen3.6 Max Preview
Alibaba
51.8
4
DeepSeek V4 Pro
DeepSeek
51.5
5
GLM-5.1
Z AI
51.4
6
Qwen3.6 Plus
Alibaba
50.0
7
GLM-5
Z AI
49.8
8
MiniMax-M2.7
MiniMax
49.6
9
MiMo-V2.5
Xiaomi
49.0
10
DeepSeek V4 Flash
DeepSeek
46.5

Artificial Analysis 是独立第三方评测,不收厂商钱。 和 LMArena 互补——LMArena 反映"人类觉得回答好不好",AA 反映"机器能不能做对题"。 同一个模型多种 reasoning effort 配置时,本表只取最高分那档。

SuperCLUE · 中文能力综合测评

来源 superclueai.com · 2026年3月测评 · 国内独立第三方

分差 1 分内视为并列 · 含数学/科学/代码/Agent 六维子分
综合榜 Top 12 · 全部模型
国内 + 海外,按 SuperCLUE 总分
# 模型 总分
1
Claude-Opus-4.6(max)
Anthropic · 闭源
77.0
2
Gemini-3.1-Pro-Preview(high)
Google · 闭源
76.7
3
GPT-5.4(xhigh)
OpenAI · 闭源
72.5
4
Doubao-Seed-2.0-pro-260215(high)
字节跳动 · 🇨🇳 · 闭源
71.5
5
DeepSeek-V4-Pro(max)
深度求索 · 🇨🇳 · 开源
71.0
6
Gemini-3-Flash-Preview(high)
Google · 闭源
68.8
7
DeepSeek-V4-Flash(max)
深度求索 · 🇨🇳 · 开源
68.8
8
Grok-4.20-Beta-0309(Reasoning)
X.AI · 闭源
66.1
9
Kimi-K2.5-Thinking
月之暗面 · 🇨🇳 · 开源
64.6
10
Qwen3.5-397B-A17B-Thinking
阿里巴巴 · 🇨🇳 · 开源
64.5
11
GLM-5
智谱AI · 🇨🇳 · 开源
64.3
12
DeepSeek-V3.2-Thinking
深度求索 · 🇨🇳 · 开源
61.9
国内厂商 Top 10
含数学/代码/Agent 子维度
# 模型 总分
1
Doubao-Seed-2.0-pro-260215(high)
字节跳动 · 闭源
71.5
2
DeepSeek-V4-Pro(max)
深度求索 · 开源
71.0
3
DeepSeek-V4-Flash(max)
深度求索 · 开源
68.8
4
Kimi-K2.5-Thinking
月之暗面 · 开源
64.6
5
Qwen3.5-397B-A17B-Thinking
阿里巴巴 · 开源
64.5
6
GLM-5
智谱AI · 开源
64.3
7
DeepSeek-V3.2-Thinking
深度求索 · 开源
61.9
8
MiMo-V2-Pro
小米集团 · 闭源
60.7
9
Tencent HY 2.0 Think
腾讯 · 闭源
59.2
10
Qwen3.5-122B-A10B-Thinking
阿里巴巴 · 开源
58.5

SuperCLUE 是国内做中文测评最久的独立基准,覆盖数学、科学、幻觉控制、指令遵循、代码、Agent 六个维度。 这是看"中文场景能力"的关键一票——AA 和 LMArena 的题大多英文,国内模型在中文上的真实差距,这张榜上才看得清楚。 官方说明:分差 1 分内并列,部分国内模型只做参考不参与排名。

OpenRouter 周用量榜

来源 openrouter.ai/rankings · 抓取于 2026-05-12 · 过去 7 天

看开发者真金白银在烧哪些模型
排名 模型 周用量
1 Hy3 Preview (free) 2.07T
2 Kimi K2.6 1.53T
3 Claude Sonnet 4.6 1.49T
4 Claude Opus 4.7 1.33T
5 Hy3 Preview 1.3T
6 Deepseek V4 Flash 1.19T
7 Gemini 3 Flash Preview 1.11T
8 Deepseek V3.2 887B
9 Deepseek V4 Pro 845B
10 Minimax M2.7 754B

OpenRouter 是聚合多家模型的中间商,能看到跨厂商的真实开发用量。 用量榜偏向便宜+免费层——比如腾讯 Hy3 Preview 在免费阶段冲到第一,并不代表它最强。

API 价格对比(USD / 百万 token)

来源 openrouter.ai API · 抓取于 2026-05-12 · 国内可用性按公开事实标注

输出价格升序 · 仅显示当代主力(24 款)
模型 输入 输出 国内
DeepSeek V4 Flash
DeepSeek · 当前性价比之王
$0.14 $0.28 可用
Grok 4.1 Fast
xAI · Grok 便宜版 / 2M 上下文
$0.20 $0.50 需代理
Llama 4 Maverick
Meta · 开源 / 自部署友好
$0.15 $0.60 需代理
DeepSeek V4 Pro
DeepSeek · DeepSeek 旗舰
$0.43 $0.87 可用
MiniMax M2.7
MiniMax · MiniMax 旗舰
$0.20 $1.20 可用
GPT-5.4 Nano
OpenAI · GPT 最便宜 / 大批量请求
$0.20 $1.25 需代理
Gemini 3.1 Flash Lite
Google · Gemini 最便宜 / 大批量
$0.25 $1.50 不稳定
GLM 5
Z.ai (智谱) · GLM 上代 / 更稳
$0.60 $1.92 可用
Qwen3.6 Plus
Alibaba (阿里云百炼) · 通义中档 / 性价比
$0.33 $1.95 可用
MiMo-V2.5
Xiaomi · 小米经济版
$0.40 $2.00 可用
Grok 4.3
xAI · Grok 旗舰
$1.25 $2.50 需代理
MiMo-V2.5-Pro
Xiaomi · 小米开源 / 编程 Agent 路线
$1.00 $3.00 可用
Gemini 3 Flash Preview
Google · Gemini 廉价快速 / 长上下文
$0.50 $3.00 不稳定
GLM 5.1
Z.ai (智谱) · GLM 最新旗舰
$0.98 $3.08 可用
Kimi K2.6
Moonshot AI · Kimi 最新旗舰 / 长文本
$0.74 $3.50 可用
GPT-5.4 Mini
OpenAI · GPT 经济版 / 速度快
$0.75 $4.50 需代理
Claude Haiku 4.5
Anthropic · Claude 经济版 / 入门
$1.00 $5.00 需代理
Qwen3.6 Max Preview
Alibaba (阿里云百炼) · 通义旗舰 / 中文标杆
$1.04 $6.24 可用
Gemini 3.1 Pro Preview
Google · Gemini 旗舰 Preview / 1M 上下文
$2.00 $12.00 不稳定
Claude Sonnet 4.6
Anthropic · 主力旗舰 / 性价比国际线最高
$3.00 $15.00 需代理
GPT-5.4
OpenAI · GPT 主力 / 性价比中档
$2.50 $15.00 需代理
Claude Opus 4.7
Anthropic · 推理/编程 / 综合最强档
$5.00 $25.00 需代理
GPT-5.5
OpenAI · GPT 主力 / 综合能力强(Intelligence 60.24 全球第一)
$5.00 $30.00 需代理
GPT-5.5 Pro
OpenAI · GPT 顶配 Pro / 复杂任务
$30.00 $180.00 需代理

价格为 OpenRouter 聚合的厂商官方定价,每条数据带 last_verified 字段(2026-05-12)。 实际成本要看输入/输出比例——同样输出 1 万字,输入 3 万字提示和输入 1 千字提示,总价能差好几倍。 国内可用性:「可用」指厂商自家 API 在中国大陆稳定访问;「需代理」「不稳定」按公开事实而非测速判断。

几个场景的选法(个人观点,按使用频率排)

不要相信"综合最强",看你具体要干嘛。

日常 ChatGPT 平替(国内)

首选 DeepSeek V4 Flash,输出 $0.28/M,便宜到几乎不用考虑成本。中文写作、看代码、写邮件都够。 预算松一点上 DeepSeek V4 Pro,AA Intelligence 51 分仅次于 Kimi K2.6。

代码 / Agent 主力

国内:Kimi K2.6,AA 中国榜第一,Agentic 66 分。 国际:Claude Sonnet 4.6,WebDev Arena 长期前列。预算紧选 Claude Haiku 4.5(输出 $5/M)。

极致便宜跑大量请求

Grok 4.1 Fast $0.50/M 输出 + 2M 上下文,国际线最便宜的旗舰区间。 国内:DeepSeek V4 Flash(输出 $0.28/M)或 MiniMax M2.7(输出 $1.20/M)。

长文档 / RAG 检索

Gemini 3.1 Pro Preview(1M)和 Qwen3.6 Plus(1M)都行。 真要塞百万 token,Gemini 3.1 Flash Lite(输出 $1.50/M)最划算。

推理 / 数学 / 复杂报告

国际:GPT-5.5(AA Intelligence 60.24 全球第一)或 Claude Opus 4.7。 国内:Kimi K2.6(53.9)或 GLM 5.1(51.4)。

合规 / 企业 / 要发票

阿里百炼 Qwen3.6 Plus / Max,或火山方舟豆包系列。 云厂商背书、合同好走、发票齐全。开通指南看这里。

热门两两对比

看全部 18 组 →

把多源数据并到一张表,左右逐项 PK,给选型建议。

深度阅读

围绕中文用户实际场景的选型笔记和避坑指南。