2026-05-12 · 数据可视化 · 性价比分析

一张图看清 LLM 性价比:智能分 vs API 价格

把 Artificial Analysis 的 Intelligence Index 和厂商官方 API 输出价格放到同一张散点图上, Pareto 前沿那条线就是"花同样的钱能买到的最高智能"。 线下方的点都被支配——你完全可以选线上的某个点用同样的钱买到更强的能力,或者花更少钱买到一样的能力。

散点图:20 款当代旗舰

$0.1 $0.3 $1 $3 $10 $30 $100 输出价格 (USD / 百万 token,对数刻度) 40 45 50 55 60 AA Intelligence Index GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro Preview Kimi K2.6 MiMo-V2.5-Pro Grok 4.3 MiniMax-M2.7 DeepSeek V4 Flash 🇨🇳 国内厂商 🇺🇸 国际厂商 空心 = 被支配

数据来源:Artificial Analysis,抓取于 2026-05-12。 虚线为 Pareto 前沿——每个实心点都意味着"再花更少钱拿不到同等智能"或"花同样钱拿不到更强智能"。

Pareto 前沿:8 个性价比最优点

这条虚线把所有当代旗舰分成两半。线上是无法被超越的性价比组合,线下都是浪费——同样的预算总有更聪明的选择。

区间 模型 输出价 (USD/M) AA 智能分 归属
极低价位 DeepSeek V4 Flash
DeepSeek
$0.28 46.52 🇨🇳
第 2 档 MiniMax-M2.7
MiniMax
$1.20 49.62 🇨🇳
第 3 档 Grok 4.3
xAI
$2.50 53.20 🇺🇸
第 4 档 MiMo-V2.5-Pro
Xiaomi
$3.00 53.83 🇨🇳
第 5 档 Kimi K2.6
Kimi
$4.00 53.90 🇨🇳
第 6 档 Gemini 3.1 Pro Preview
Google
$12.00 57.18 🇺🇸
第 7 档 Claude Opus 4.7
Anthropic
$25.00 57.28 🇺🇸
顶配 GPT-5.5
OpenAI
$30.00 60.24 🇺🇸

怎么看这张表?挑一个你能接受的预算上限,往左找到第一行——那就是这个预算下能买到的最强模型。

DeepSeek V4 Flash 守在 $0.28 的极低价位,46 分的智能在这个价位是"碾压式"存在—— 下一个性价比节点 MiniMax-M2.7 要花 4 倍多的钱($1.20)才能多拿 3 分。

Kimi K2.6($4)和 Gemini 3.1 Pro Preview($12)之间是个明显的台阶—— 智能分多 3 分要多花 3 倍的钱。如果不是非要冲 57+ 分的极高智能,停在 Kimi K2.6 性价比就够了。

GPT-5.5 是榜上智能最高的(60.24),但 $30 输出价也是榜上第二贵。 做"必须最强"的任务可以选它,跑量绝对划不来。

价格 ≤ $2/M 区间:跑量优先

这个区间适合:海量批处理、用户量大的免费层、对错误率不敏感的辅助任务。

  • MiniMax-M2.7(MiniMax · 🇨🇳) · 输出 $1.20/M · AA 49.62 · ⭐ Pareto 前沿
  • MiMo-V2.5(Xiaomi · 🇨🇳) · 输出 $1.80/M · AA 49.03
  • DeepSeek V4 Flash(DeepSeek · 🇨🇳) · 输出 $0.28/M · AA 46.52 · ⭐ Pareto 前沿
  • GPT-5.4 nano(OpenAI) · 输出 $1.25/M · AA 43.98

这个区间几乎被国内厂商承包。DeepSeek 把 V4 Flash 的价格压到 $0.28 之后,国际线在这个价位段已经没法直接竞争—— 连 OpenAI 也只是用 GPT-5.4 nano($1.25/M)勉强卡位,但智能分只有 43.98,不到 DeepSeek V4 Flash。

价格 $2-6/M 区间:主力工作流

大部分严肃应用应该在这个区间挑——智能够用,价格还算克制。

  • Kimi K2.6(Kimi · 🇨🇳) · 输出 $4.00/M · AA 53.90 · ⭐ Pareto 前沿
  • MiMo-V2.5-Pro(Xiaomi · 🇨🇳) · 输出 $3.00/M · AA 53.83 · ⭐ Pareto 前沿
  • Grok 4.3(xAI) · 输出 $2.50/M · AA 53.20 · ⭐ Pareto 前沿
  • DeepSeek V4 Pro(DeepSeek · 🇨🇳) · 输出 $3.48/M · AA 51.51
  • GLM-5.1(Z AI · 🇨🇳) · 输出 $4.40/M · AA 51.41
  • Qwen3.6 Plus(Alibaba · 🇨🇳) · 输出 $3.00/M · AA 49.98
  • GLM-5(Z AI · 🇨🇳) · 输出 $3.20/M · AA 49.77
  • GPT-5.4 mini(OpenAI) · 输出 $4.50/M · AA 48.90
  • Gemini 3 Flash(Google) · 输出 $3.00/M · AA 46.43

国内 5 家(DeepSeek、Qwen、Kimi、智谱 GLM、MiMo)全部出现在这个区间,相互之间智能差距 1-3 分,价格差距却没到 2 倍。 中文场景挑哪家更多看习惯和合规——具体看下面的 SuperCLUE 交叉验证。

价格 > $6/M 区间:必须最强

只有少数场景值得花这个钱:律师/合同审阅、医学辅助、关键代码 review、复杂数学证明。能容忍错误的场景不要进这个区间。

  • GPT-5.5(OpenAI) · 输出 $30.00/M · AA 60.24 · ⭐ Pareto 前沿
  • Claude Opus 4.7(Anthropic) · 输出 $25.00/M · AA 57.28 · ⭐ Pareto 前沿
  • Gemini 3.1 Pro Preview(Google) · 输出 $12.00/M · AA 57.18 · ⭐ Pareto 前沿
  • GPT-5.3 Codex(OpenAI) · 输出 $14.00/M · AA 53.56
  • Qwen3.6 Max Preview(Alibaba · 🇨🇳) · 输出 $7.80/M · AA 51.81
  • Claude Sonnet 4.6(Anthropic) · 输出 $15.00/M · AA 51.72
  • GPT-5.4(OpenAI) · 输出 $15.00/M · AA 47.94

这个区间全是国际厂商。国内最贵的旗舰也才到 $4-5(Kimi K2.6、GLM-5.1),还没摸到这个区间的门槛。 值得注意:Claude Sonnet 4.6 在这里属于"贵但智能没上去"—— AA 智能 51.85 还不如 $4 的 Kimi K2.6 高,价格却 $15。Sonnet 4.6 真正强的地方在长链路代码任务(LMArena WebDev 榜常年前列), AA 单一智能分覆盖不到那个维度。

交叉验证:SuperCLUE 中文榜怎么说

AA 是国际评测,题目以英文为主。同样的钱在中文场景里值不值,得看 SuperCLUE(2026年3月)的反馈。 下表是 SuperCLUE 国内 Top 6 和它们的 AA 智能分对照:

SuperCLUE 模型 机构 中文总分 代码 Agent
Doubao-Seed-2.0-pro-260215(high) 字节跳动 71.5 63.9 81.0
DeepSeek-V4-Pro(max) 深度求索 71.0 63.2 77.5
DeepSeek-V4-Flash(max) 深度求索 68.8 61.4 75.3
Kimi-K2.5-Thinking 月之暗面 64.6 65.5 78.4
Qwen3.5-397B-A17B-Thinking 阿里巴巴 64.5 51.0 71.5
GLM-5 智谱AI 64.3 58.3 66.6

两份榜单的结论高度一致:DeepSeek V4 系列、Kimi K2.5/2.6、GLM-5 三家都在国内前 6。 一些细节差异值得注意:

  • 字节豆包(Doubao-Seed-2.0-pro)在 SuperCLUE 国内第一,但在 AA 国际榜上几乎看不见——它在国际通用基准上不发力,专做中文场景的优化。
  • Qwen3.5-397B-Thinking在 SuperCLUE 上是开源前列,但 AA 榜上对应的是更老一代的 Qwen3.6 系列——开源旗舰更新比 API 上线快。
  • GPT-5.4(xhigh)在 SuperCLUE 中文榜只排到第 3(72.48),落后 Gemini-3.1-Pro(76.69)和 Claude-Opus-4.6(77.02)。中文对国际厂商不是均匀难题。

这就是为什么本站坚持不做"综合分"——同一个模型在两份独立榜上排名都能差几位, 强行加权出一个"综合排名"反而抹掉了真实信息。

方法学说明 / 这张图不能告诉你的事

  • 价格只算了输出 token。实际成本要看输入/输出比例——长 system prompt + 短回答的场景,输入价才是大头。详见 API 调用怎么算账
  • AA Intelligence Index 是"做题能力"。它包含 MMLU-Pro、GPQA、HLE 等通用基准。LMArena 上的"人类偏好"、Claude Code 里的"长链路代码",AA 都无法直接反映。
  • 推理模型用的是最高档配置。同一个模型不同 reasoning effort(xhigh/high/medium/low)AA 拆开排名,本图按 base 模型只保留最高分变体。开了 reasoning 智能高、价格也高、速度更慢,实际部署可能选 medium。
  • 国内可用性没体现在图上。Claude Opus 4.7 在 Pareto 前沿,但没有官方国内通道——选它得自己解决代理。
  • 数据 2026-05-12 抓取。OpenAI、Anthropic、国内大厂都在频繁调价,图上的相对位置随时会变。本页每月跟着 AA 数据更新。

接下来怎么用

把这张图当成"选型起点":

  1. 先定预算上限——你能接受输出 token 多少钱?
  2. 在散点图上找到对应价位的 Pareto 前沿点。
  3. 跳到 2026 Q2 选型盘点 看这个模型的中文场景表现。
  4. 开通账号、跑测试——国内 API 怎么开通

所有数字都标了来源,你可以自己回原始榜单复核。 不要把一张图当成选型最终答案——它能帮你排除 80% 的明显次优选项,但真要落地,多源对照、自己跑 benchmark 是省不掉的。