2026-05-12 · 数据可视化 · 性价比分析

一张图看清 LLM 性价比：智能分 vs API 价格

把 Artificial Analysis 的 Intelligence Index 和厂商官方 API 输出价格放到同一张散点图上， Pareto 前沿那条线就是"花同样的钱能买到的最高智能"。线下方的点都被支配——你完全可以选线上的某个点用同样的钱买到更强的能力，或者花更少钱买到一样的能力。

散点图：20 款当代旗舰

数据来源：Artificial Analysis，抓取于 2026-05-12。虚线为 Pareto 前沿——每个实心点都意味着"再花更少钱拿不到同等智能"或"花同样钱拿不到更强智能"。

Pareto 前沿：8 个性价比最优点

这条虚线把所有当代旗舰分成两半。线上是无法被超越的性价比组合，线下都是浪费——同样的预算总有更聪明的选择。

区间	模型	输出价 (USD/M)	AA 智能分	归属
极低价位	DeepSeek V4 Flash DeepSeek	$0.28	46.52	🇨🇳
第 2 档	MiniMax-M2.7 MiniMax	$1.20	49.62	🇨🇳
第 3 档	Grok 4.3 xAI	$2.50	53.20	🇺🇸
第 4 档	MiMo-V2.5-Pro Xiaomi	$3.00	53.83	🇨🇳
第 5 档	Kimi K2.6 Kimi	$4.00	53.90	🇨🇳
第 6 档	Gemini 3.1 Pro Preview Google	$12.00	57.18	🇺🇸
第 7 档	Claude Opus 4.7 Anthropic	$25.00	57.28	🇺🇸
顶配	GPT-5.5 OpenAI	$30.00	60.24	🇺🇸

怎么看这张表？挑一个你能接受的预算上限，往左找到第一行——那就是这个预算下能买到的最强模型。

DeepSeek V4 Flash 守在 $0.28 的极低价位，46 分的智能在这个价位是"碾压式"存在—— 下一个性价比节点 MiniMax-M2.7 要花 4 倍多的钱（$1.20）才能多拿 3 分。

Kimi K2.6（$4）和 Gemini 3.1 Pro Preview（$12）之间是个明显的台阶—— 智能分多 3 分要多花 3 倍的钱。如果不是非要冲 57+ 分的极高智能，停在 Kimi K2.6 性价比就够了。

GPT-5.5 是榜上智能最高的（60.24），但 $30 输出价也是榜上第二贵。做"必须最强"的任务可以选它，跑量绝对划不来。

价格 ≤ $2/M 区间：跑量优先

这个区间适合：海量批处理、用户量大的免费层、对错误率不敏感的辅助任务。

MiniMax-M2.7（MiniMax · 🇨🇳） · 输出 $1.20/M · AA 49.62 · ⭐ Pareto 前沿
MiMo-V2.5（Xiaomi · 🇨🇳） · 输出 $1.80/M · AA 49.03
DeepSeek V4 Flash（DeepSeek · 🇨🇳） · 输出 $0.28/M · AA 46.52 · ⭐ Pareto 前沿
GPT-5.4 nano（OpenAI） · 输出 $1.25/M · AA 43.98

这个区间几乎被国内厂商承包。DeepSeek 把 V4 Flash 的价格压到 $0.28 之后，国际线在这个价位段已经没法直接竞争—— 连 OpenAI 也只是用 GPT-5.4 nano（$1.25/M）勉强卡位，但智能分只有 43.98，不到 DeepSeek V4 Flash。

价格 $2-6/M 区间：主力工作流

大部分严肃应用应该在这个区间挑——智能够用，价格还算克制。

Kimi K2.6（Kimi · 🇨🇳） · 输出 $4.00/M · AA 53.90 · ⭐ Pareto 前沿
MiMo-V2.5-Pro（Xiaomi · 🇨🇳） · 输出 $3.00/M · AA 53.83 · ⭐ Pareto 前沿
Grok 4.3（xAI） · 输出 $2.50/M · AA 53.20 · ⭐ Pareto 前沿
DeepSeek V4 Pro（DeepSeek · 🇨🇳） · 输出 $3.48/M · AA 51.51
GLM-5.1（Z AI · 🇨🇳） · 输出 $4.40/M · AA 51.41
Qwen3.6 Plus（Alibaba · 🇨🇳） · 输出 $3.00/M · AA 49.98
GLM-5（Z AI · 🇨🇳） · 输出 $3.20/M · AA 49.77
GPT-5.4 mini（OpenAI） · 输出 $4.50/M · AA 48.90
Gemini 3 Flash（Google） · 输出 $3.00/M · AA 46.43

国内 5 家（DeepSeek、Qwen、Kimi、智谱 GLM、MiMo）全部出现在这个区间，相互之间智能差距 1-3 分，价格差距却没到 2 倍。中文场景挑哪家更多看习惯和合规——具体看下面的 SuperCLUE 交叉验证。

价格 > $6/M 区间：必须最强

只有少数场景值得花这个钱：律师/合同审阅、医学辅助、关键代码 review、复杂数学证明。能容忍错误的场景不要进这个区间。

GPT-5.5（OpenAI） · 输出 $30.00/M · AA 60.24 · ⭐ Pareto 前沿
Claude Opus 4.7（Anthropic） · 输出 $25.00/M · AA 57.28 · ⭐ Pareto 前沿
Gemini 3.1 Pro Preview（Google） · 输出 $12.00/M · AA 57.18 · ⭐ Pareto 前沿
GPT-5.3 Codex（OpenAI） · 输出 $14.00/M · AA 53.56
Qwen3.6 Max Preview（Alibaba · 🇨🇳） · 输出 $7.80/M · AA 51.81
Claude Sonnet 4.6（Anthropic） · 输出 $15.00/M · AA 51.72
GPT-5.4（OpenAI） · 输出 $15.00/M · AA 47.94

这个区间全是国际厂商。国内最贵的旗舰也才到 $4-5（Kimi K2.6、GLM-5.1），还没摸到这个区间的门槛。值得注意：Claude Sonnet 4.6 在这里属于"贵但智能没上去"—— AA 智能 51.85 还不如 $4 的 Kimi K2.6 高，价格却 $15。Sonnet 4.6 真正强的地方在长链路代码任务（LMArena WebDev 榜常年前列）， AA 单一智能分覆盖不到那个维度。

交叉验证：SuperCLUE 中文榜怎么说

AA 是国际评测，题目以英文为主。同样的钱在中文场景里值不值，得看 SuperCLUE（2026年3月）的反馈。下表是 SuperCLUE 国内 Top 6 和它们的 AA 智能分对照：

SuperCLUE 模型	机构	中文总分	代码	Agent
Doubao-Seed-2.0-pro-260215(high)	字节跳动	71.5	63.9	81.0
DeepSeek-V4-Pro(max)	深度求索	71.0	63.2	77.5
DeepSeek-V4-Flash(max)	深度求索	68.8	61.4	75.3
Kimi-K2.5-Thinking	月之暗面	64.6	65.5	78.4
Qwen3.5-397B-A17B-Thinking	阿里巴巴	64.5	51.0	71.5
GLM-5	智谱AI	64.3	58.3	66.6

两份榜单的结论高度一致：DeepSeek V4 系列、Kimi K2.5/2.6、GLM-5 三家都在国内前 6。一些细节差异值得注意：

字节豆包（Doubao-Seed-2.0-pro）在 SuperCLUE 国内第一，但在 AA 国际榜上几乎看不见——它在国际通用基准上不发力，专做中文场景的优化。
Qwen3.5-397B-Thinking在 SuperCLUE 上是开源前列，但 AA 榜上对应的是更老一代的 Qwen3.6 系列——开源旗舰更新比 API 上线快。
GPT-5.4(xhigh)在 SuperCLUE 中文榜只排到第 3（72.48），落后 Gemini-3.1-Pro（76.69）和 Claude-Opus-4.6（77.02）。中文对国际厂商不是均匀难题。

这就是为什么本站坚持不做"综合分"——同一个模型在两份独立榜上排名都能差几位，强行加权出一个"综合排名"反而抹掉了真实信息。

方法学说明 / 这张图不能告诉你的事

价格只算了输出 token。实际成本要看输入/输出比例——长 system prompt + 短回答的场景，输入价才是大头。详见 API 调用怎么算账。
AA Intelligence Index 是"做题能力"。它包含 MMLU-Pro、GPQA、HLE 等通用基准。LMArena 上的"人类偏好"、Claude Code 里的"长链路代码"，AA 都无法直接反映。
推理模型用的是最高档配置。同一个模型不同 reasoning effort（xhigh/high/medium/low）AA 拆开排名，本图按 base 模型只保留最高分变体。开了 reasoning 智能高、价格也高、速度更慢，实际部署可能选 medium。
国内可用性没体现在图上。Claude Opus 4.7 在 Pareto 前沿，但没有官方国内通道——选它得自己解决代理。
数据 2026-05-12 抓取。OpenAI、Anthropic、国内大厂都在频繁调价，图上的相对位置随时会变。本页每月跟着 AA 数据更新。

接下来怎么用

把这张图当成"选型起点"：

先定预算上限——你能接受输出 token 多少钱？
在散点图上找到对应价位的 Pareto 前沿点。
跳到 2026 Q2 选型盘点看这个模型的中文场景表现。
开通账号、跑测试——国内 API 怎么开通。

所有数字都标了来源，你可以自己回原始榜单复核。 不要把一张图当成选型最终答案——它能帮你排除 80% 的明显次优选项，但真要落地，多源对照、自己跑 benchmark 是省不掉的。