一张图看清 LLM 性价比:智能分 vs API 价格
把 Artificial Analysis 的 Intelligence Index 和厂商官方 API 输出价格放到同一张散点图上, Pareto 前沿那条线就是"花同样的钱能买到的最高智能"。 线下方的点都被支配——你完全可以选线上的某个点用同样的钱买到更强的能力,或者花更少钱买到一样的能力。
散点图:20 款当代旗舰
数据来源:Artificial Analysis,抓取于 2026-05-12。 虚线为 Pareto 前沿——每个实心点都意味着"再花更少钱拿不到同等智能"或"花同样钱拿不到更强智能"。
Pareto 前沿:8 个性价比最优点
这条虚线把所有当代旗舰分成两半。线上是无法被超越的性价比组合,线下都是浪费——同样的预算总有更聪明的选择。
| 区间 | 模型 | 输出价 (USD/M) | AA 智能分 | 归属 |
|---|---|---|---|---|
| 极低价位 | DeepSeek V4 Flash DeepSeek | $0.28 | 46.52 | 🇨🇳 |
| 第 2 档 | MiniMax-M2.7 MiniMax | $1.20 | 49.62 | 🇨🇳 |
| 第 3 档 | Grok 4.3 xAI | $2.50 | 53.20 | 🇺🇸 |
| 第 4 档 | MiMo-V2.5-Pro Xiaomi | $3.00 | 53.83 | 🇨🇳 |
| 第 5 档 | Kimi K2.6 Kimi | $4.00 | 53.90 | 🇨🇳 |
| 第 6 档 | Gemini 3.1 Pro Preview Google | $12.00 | 57.18 | 🇺🇸 |
| 第 7 档 | Claude Opus 4.7 Anthropic | $25.00 | 57.28 | 🇺🇸 |
| 顶配 | GPT-5.5 OpenAI | $30.00 | 60.24 | 🇺🇸 |
怎么看这张表?挑一个你能接受的预算上限,往左找到第一行——那就是这个预算下能买到的最强模型。
DeepSeek V4 Flash 守在 $0.28 的极低价位,46 分的智能在这个价位是"碾压式"存在—— 下一个性价比节点 MiniMax-M2.7 要花 4 倍多的钱($1.20)才能多拿 3 分。
Kimi K2.6($4)和 Gemini 3.1 Pro Preview($12)之间是个明显的台阶—— 智能分多 3 分要多花 3 倍的钱。如果不是非要冲 57+ 分的极高智能,停在 Kimi K2.6 性价比就够了。
GPT-5.5 是榜上智能最高的(60.24),但 $30 输出价也是榜上第二贵。 做"必须最强"的任务可以选它,跑量绝对划不来。
价格 ≤ $2/M 区间:跑量优先
这个区间适合:海量批处理、用户量大的免费层、对错误率不敏感的辅助任务。
- MiniMax-M2.7(MiniMax · 🇨🇳) · 输出 $1.20/M · AA 49.62 · ⭐ Pareto 前沿
- MiMo-V2.5(Xiaomi · 🇨🇳) · 输出 $1.80/M · AA 49.03
- DeepSeek V4 Flash(DeepSeek · 🇨🇳) · 输出 $0.28/M · AA 46.52 · ⭐ Pareto 前沿
- GPT-5.4 nano(OpenAI) · 输出 $1.25/M · AA 43.98
这个区间几乎被国内厂商承包。DeepSeek 把 V4 Flash 的价格压到 $0.28 之后,国际线在这个价位段已经没法直接竞争—— 连 OpenAI 也只是用 GPT-5.4 nano($1.25/M)勉强卡位,但智能分只有 43.98,不到 DeepSeek V4 Flash。
价格 $2-6/M 区间:主力工作流
大部分严肃应用应该在这个区间挑——智能够用,价格还算克制。
- Kimi K2.6(Kimi · 🇨🇳) · 输出 $4.00/M · AA 53.90 · ⭐ Pareto 前沿
- MiMo-V2.5-Pro(Xiaomi · 🇨🇳) · 输出 $3.00/M · AA 53.83 · ⭐ Pareto 前沿
- Grok 4.3(xAI) · 输出 $2.50/M · AA 53.20 · ⭐ Pareto 前沿
- DeepSeek V4 Pro(DeepSeek · 🇨🇳) · 输出 $3.48/M · AA 51.51
- GLM-5.1(Z AI · 🇨🇳) · 输出 $4.40/M · AA 51.41
- Qwen3.6 Plus(Alibaba · 🇨🇳) · 输出 $3.00/M · AA 49.98
- GLM-5(Z AI · 🇨🇳) · 输出 $3.20/M · AA 49.77
- GPT-5.4 mini(OpenAI) · 输出 $4.50/M · AA 48.90
- Gemini 3 Flash(Google) · 输出 $3.00/M · AA 46.43
国内 5 家(DeepSeek、Qwen、Kimi、智谱 GLM、MiMo)全部出现在这个区间,相互之间智能差距 1-3 分,价格差距却没到 2 倍。 中文场景挑哪家更多看习惯和合规——具体看下面的 SuperCLUE 交叉验证。
价格 > $6/M 区间:必须最强
只有少数场景值得花这个钱:律师/合同审阅、医学辅助、关键代码 review、复杂数学证明。能容忍错误的场景不要进这个区间。
- GPT-5.5(OpenAI) · 输出 $30.00/M · AA 60.24 · ⭐ Pareto 前沿
- Claude Opus 4.7(Anthropic) · 输出 $25.00/M · AA 57.28 · ⭐ Pareto 前沿
- Gemini 3.1 Pro Preview(Google) · 输出 $12.00/M · AA 57.18 · ⭐ Pareto 前沿
- GPT-5.3 Codex(OpenAI) · 输出 $14.00/M · AA 53.56
- Qwen3.6 Max Preview(Alibaba · 🇨🇳) · 输出 $7.80/M · AA 51.81
- Claude Sonnet 4.6(Anthropic) · 输出 $15.00/M · AA 51.72
- GPT-5.4(OpenAI) · 输出 $15.00/M · AA 47.94
这个区间全是国际厂商。国内最贵的旗舰也才到 $4-5(Kimi K2.6、GLM-5.1),还没摸到这个区间的门槛。 值得注意:Claude Sonnet 4.6 在这里属于"贵但智能没上去"—— AA 智能 51.85 还不如 $4 的 Kimi K2.6 高,价格却 $15。Sonnet 4.6 真正强的地方在长链路代码任务(LMArena WebDev 榜常年前列), AA 单一智能分覆盖不到那个维度。
交叉验证:SuperCLUE 中文榜怎么说
AA 是国际评测,题目以英文为主。同样的钱在中文场景里值不值,得看 SuperCLUE(2026年3月)的反馈。 下表是 SuperCLUE 国内 Top 6 和它们的 AA 智能分对照:
| SuperCLUE 模型 | 机构 | 中文总分 | 代码 | Agent |
|---|---|---|---|---|
| Doubao-Seed-2.0-pro-260215(high) | 字节跳动 | 71.5 | 63.9 | 81.0 |
| DeepSeek-V4-Pro(max) | 深度求索 | 71.0 | 63.2 | 77.5 |
| DeepSeek-V4-Flash(max) | 深度求索 | 68.8 | 61.4 | 75.3 |
| Kimi-K2.5-Thinking | 月之暗面 | 64.6 | 65.5 | 78.4 |
| Qwen3.5-397B-A17B-Thinking | 阿里巴巴 | 64.5 | 51.0 | 71.5 |
| GLM-5 | 智谱AI | 64.3 | 58.3 | 66.6 |
两份榜单的结论高度一致:DeepSeek V4 系列、Kimi K2.5/2.6、GLM-5 三家都在国内前 6。 一些细节差异值得注意:
- 字节豆包(Doubao-Seed-2.0-pro)在 SuperCLUE 国内第一,但在 AA 国际榜上几乎看不见——它在国际通用基准上不发力,专做中文场景的优化。
- Qwen3.5-397B-Thinking在 SuperCLUE 上是开源前列,但 AA 榜上对应的是更老一代的 Qwen3.6 系列——开源旗舰更新比 API 上线快。
- GPT-5.4(xhigh)在 SuperCLUE 中文榜只排到第 3(72.48),落后 Gemini-3.1-Pro(76.69)和 Claude-Opus-4.6(77.02)。中文对国际厂商不是均匀难题。
这就是为什么本站坚持不做"综合分"——同一个模型在两份独立榜上排名都能差几位, 强行加权出一个"综合排名"反而抹掉了真实信息。
方法学说明 / 这张图不能告诉你的事
- 价格只算了输出 token。实际成本要看输入/输出比例——长 system prompt + 短回答的场景,输入价才是大头。详见 API 调用怎么算账。
- AA Intelligence Index 是"做题能力"。它包含 MMLU-Pro、GPQA、HLE 等通用基准。LMArena 上的"人类偏好"、Claude Code 里的"长链路代码",AA 都无法直接反映。
- 推理模型用的是最高档配置。同一个模型不同 reasoning effort(xhigh/high/medium/low)AA 拆开排名,本图按 base 模型只保留最高分变体。开了 reasoning 智能高、价格也高、速度更慢,实际部署可能选 medium。
- 国内可用性没体现在图上。Claude Opus 4.7 在 Pareto 前沿,但没有官方国内通道——选它得自己解决代理。
- 数据 2026-05-12 抓取。OpenAI、Anthropic、国内大厂都在频繁调价,图上的相对位置随时会变。本页每月跟着 AA 数据更新。
接下来怎么用
把这张图当成"选型起点":
- 先定预算上限——你能接受输出 token 多少钱?
- 在散点图上找到对应价位的 Pareto 前沿点。
- 跳到 2026 Q2 选型盘点 看这个模型的中文场景表现。
- 开通账号、跑测试——国内 API 怎么开通。
所有数字都标了来源,你可以自己回原始榜单复核。 不要把一张图当成选型最终答案——它能帮你排除 80% 的明显次优选项,但真要落地,多源对照、自己跑 benchmark 是省不掉的。