LLM 家族代际演化:升级是变强还是变差了
每隔几个月就有新版本号出来——Claude 4.5 → 4.6 → 4.7、GPT-5 → 5.4 → 5.5、Gemini 2.5 → 3 → 3.1。 厂商发布会都在讲"全面升级",但同一家不同代的模型,在同一份基准上到底是变好还是变差了? 这一篇把 8 大家族 60 多个具体版本 在 Vectara HHEM 幻觉率、AA Intelligence 智能分、API 价格上的纵向数据摆到一起—— 让代号自己说话。
先看结论
| 家族 | 趋势 | 最早一代 HR | 最新一代 HR | 变化 |
|---|---|---|---|---|
| Anthropic Claude | 升降互现 | 10.3% Sonnet 4 | 12.0% Opus 4.7 | ↑ 1.7pp |
| OpenAI GPT-5 | 升降互现 | 14.7% GPT-5 (minimal) | 9.3% GPT-5.5 | ↓ 5.4pp |
| Google Gemini | 代际恶化 | 7.8% Gemini 2.5 Flash | 10.4% Gemini 3.1 Pro Preview | ↑ 2.6pp |
| DeepSeek 🇨🇳 | 升降互现 | 6.1% DeepSeek V3 | 8.6% DeepSeek V4-Pro | ↑ 2.5pp |
| Qwen 阿里 🇨🇳 | 代际恶化 | 5.7% Qwen3 4B | 10.5% Qwen3.5 Flash | ↑ 4.8pp |
| GLM 智谱 🇨🇳 | 横盘没变 | 9.3% GLM-4.5 Air FP8 | 10.1% GLM-5 | ↑ 0.8pp |
| Kimi 月之暗面 🇨🇳 | 稳步改善 | 17.9% Kimi K2 Instruct | 10.8% Kimi K2.6 | ↓ 7.1pp |
| Grok xAI | 代际恶化 | 5.8% Grok 3 | 19.2% Grok 4.1 Fast (reasoning) | ↑ 13.4pp |
最早一代 = 该家族在 Vectara HHEM 中最早一个有数据的版本;最新一代 = 同榜里最新一个版本。 变化 = 最新 HR − 最早 HR,负值表示改善。HR 不等于综合能力,只反映摘要任务的事实一致性,但对 RAG / 客服 / 医疗法律场景非常关键。
Anthropic Claude
升降互现四代旗舰 HR 长期卡在 10-12% 区间没有突破,最新 Opus 4.7 反而比半年前的 4.5 更爱"加戏"。智能分一路上涨,但"不胡说"这件事一直没解决。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| Sonnet 4 | 2025-05-14 | 10.3% | — | — | HHEM 10.3%(家族最低之一) |
| Opus 4 | 2025-05-14 | 12.0% | — | — | HHEM 12.0% |
| Opus 4.1 | 2025-08-05 | 11.8% | — | — | HHEM 11.8%,微降 |
| Sonnet 4.5 | 2025-09-29 | 12.0% | — | — | HHEM 12.0%,比 Sonnet 4 反升 1.7pp |
| Haiku 4.5 | 2025-10-01 | 9.8% | — | — | HHEM 9.8% · 家族最低 |
| Opus 4.5 | 2025-11-01 | 10.9% | — | — | HHEM 10.9% · 旗舰里 HR 最低的一代 |
| Sonnet 4.6 | 2026-02-17 | 10.6% | 51.7 | $15.00 | HHEM 10.6% / AA 51.7 |
| Opus 4.6 | 2026-02-17 | 12.2% | — | — | HHEM 12.2% · 比 4.5 退步 1.3pp |
| Opus 4.7 | 2026-04-16 | 12.0% | 57.3 | $25.00 | AA 57.3 升至全球 #2,但 HHEM 12.0% 没有改善 |
OpenAI GPT-5
升降互现半年内从 GPT-5 演进到 GPT-5.5,幻觉率从 15% 一路降到 3-9%,5.4 系列尤其惊艳;5.5 旗舰为追求做题分又反弹回 9.3%,呈"做题强 vs 不胡说"的反向 trade-off。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| GPT-5 (minimal) | 2025-08-07 | 14.7% | — | — | HHEM 14.7% |
| GPT-5 (high) | 2025-08-07 | 15.1% | — | — | HHEM 15.1% · 家族最差 |
| GPT-5 mini | 2025-08-07 | 12.9% | — | — | HHEM 12.9% |
| GPT-5 nano | 2025-08-07 | 10.5% | — | — | HHEM 10.5% |
| GPT-5.1 (low) | 2025-11-13 | 10.9% | — | — | HHEM 10.9% |
| GPT-5.1 (high) | 2025-11-13 | 12.1% | — | — | HHEM 12.1% |
| GPT-5.2 (low) | 2025-12-11 | 8.4% | — | — | HHEM 8.4% · 首次跌破 10% |
| GPT-5.2 (high) | 2025-12-11 | 10.8% | — | — | HHEM 10.8% |
| GPT-5.4 | 2026-03-05 | 7.0% | 47.9 | $15.00 | HHEM 7.0% |
| GPT-5.4 pro | 2026-03-05 | 8.3% | — | — | HHEM 8.3% |
| GPT-5.4 nano | 2026-03-17 | 3.1% | 44.0 | $1.25 | HHEM 3.1% · 全榜第 2,跨代质变 |
| GPT-5.4 mini | 2026-03-17 | 5.5% | 48.9 | $4.50 | HHEM 5.5% |
| GPT-5.5 | 2026-04-23 | 9.3% | 60.2 | $30.00 | AA 60.24 全球 #1,但 HHEM 9.3% 比 5.4 mini 退步 3.8pp |
Google Gemini
代际恶化最戏剧的代际回退:2.5 系列 HR 仅 3-8%(Flash-Lite 3.3% 全榜第 3),到了 3.x Preview 全线翻倍恶化至 13.5/13.6%,3.1 Preview 在修但还差 2.5 一截。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 2025-06-17 | 7.8% | — | — | HHEM 7.8% |
| Gemini 2.5 Pro | 2025-06-17 | 7.0% | — | — | HHEM 7.0% |
| Gemini 2.5 Flash-Lite | 2025-09-18 | 3.3% | — | — | HHEM 3.3% · 全榜第 3 |
| Gemini 3 Flash Preview | 2025-12-17 | 13.5% | 46.4 | $3.00 | HHEM 13.5% · 比 2.5 Flash 退步 5.7pp |
| Gemini 3 Pro Preview | 2025-12-17 | 13.6% | — | — | HHEM 13.6% · 比 2.5 Pro 退步 6.6pp |
| Gemini 3.1 Flash Lite Preview | 2026-02-25 | 8.2% | — | — | HHEM 8.2% · 在修复 |
| Gemini 3.1 Pro Preview | 2026-04-04 | 10.4% | 57.2 | $12.00 | HHEM 10.4% · AA 57.2 全球 #3,但 HR 还没回到 2.5 Pro 水平 |
DeepSeek 🇨🇳 国内
升降互现V3 系列幻觉率长期保持在 5-6% 第一梯队,但 V4-Pro 跳到 8.6%、R1 推理版高达 11.3%——这家典型「做题更强但更爱编」的代际特征。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| DeepSeek V3 | 2024-12-26 | 6.1% | — | — | HHEM 6.1% |
| DeepSeek R1 | 2025-01-20 | 11.3% | — | — | HHEM 11.3% · 首款推理模型,HR 比 V3 高 5.2pp |
| DeepSeek V3.1 | 2025-08-21 | 5.5% | — | — | HHEM 5.5% · 家族最低 |
| DeepSeek V3.2 | 2025-09-29 | 6.3% | — | — | HHEM 6.3% |
| DeepSeek V3.2-Exp | 2025-09-29 | 5.3% | — | — | HHEM 5.3% · Exp 反而比稳定版低 |
| DeepSeek V4-Pro | 2026-03-21 | 8.6% | 51.5 | $0.87 | AA 51.46 / HR 8.6% · 智能分上去了,但 HR 比 V3.1 退步 3.1pp |
Qwen 阿里 🇨🇳 国内
代际恶化Qwen3 小尺寸(4B/8B/14B/32B)幻觉率 4.8-5.9% 排在全榜前列,但升级到 Qwen3.5 全线退步到 10-12%——更大、更新的模型在摘要场景反而不如自家半年前的小尺寸。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| Qwen3 4B | 2025-04-29 | 5.7% | — | — | HHEM 5.7% |
| Qwen3 8B | 2025-04-29 | 4.8% | — | — | HHEM 4.8% · 家族最低 |
| Qwen3 14B | 2025-04-29 | 5.4% | — | — | HHEM 5.4% |
| Qwen3 32B | 2025-04-29 | 5.9% | — | — | HHEM 5.9% |
| Qwen3 235B A22B | 2025-07-23 | 9.3% | — | — | HHEM 9.3% |
| Qwen3-Next 80B Thinking | 2025-09-11 | 9.3% | — | — | HHEM 9.3% |
| Qwen3.5 Plus | 2026-02-15 | 10.7% | — | — | HHEM 10.7% |
| Qwen3.5 27B | 2026-02-22 | 12.1% | — | — | HHEM 12.1% |
| Qwen3.5 35B A3B | 2026-02-22 | 10.5% | — | — | HHEM 10.5% |
| Qwen3.5 122B A10B | 2026-02-22 | 11.2% | — | — | HHEM 11.2% |
| Qwen3.5 Flash | 2026-02-23 | 10.5% | — | — | HHEM 10.5% |
GLM 智谱 🇨🇳 国内
横盘没变从 4.5 到 5 横盘在 9-12% 区间,没有出现 OpenAI / Kimi 那种跨代质变。GLM-5 是家族最新但 HR 反而比 4.7-flash 高 0.8pp。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| GLM-4.5 Air FP8 | 2025-07-28 | 9.3% | — | — | HHEM 9.3% |
| GLM-4.6 | 2025-09-30 | 9.5% | — | — | HHEM 9.5% |
| GLM-4.7 | 2025-12-18 | 11.7% | — | — | HHEM 11.7% · 家族最差 |
| GLM-4.7 Flash | 2026-01-15 | 9.3% | — | — | HHEM 9.3% · 比 4.7 修复 2.4pp |
| GLM-5 | 2026-03-18 | 10.1% | 49.8 | $1.92 | AA 49.81 / HR 10.1% |
Kimi 月之暗面 🇨🇳 国内
稳步改善三代演化里 HR 一路下降——K2 17.9% → K2.5 14.2% → K2.6 10.8%,是 HHEM 上"真改进"曲线最干净的国产家族。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| Kimi K2 Instruct | 2025-09-05 | 17.9% | — | — | HHEM 17.9% |
| Kimi K2.5 | 2025-12-21 | 14.2% | — | — | HHEM 14.2% · 比 K2 降 3.7pp |
| Kimi K2.6 | 2026-03-04 | 10.8% | 53.9 | $3.50 | AA 53.94 / HR 10.8% · 又降 3.4pp,跨代稳步改善 |
Grok xAI
代际恶化从 Grok 3 的 5.8% 到 Grok 4 Fast 系列的 17.8-20.2%,HR 翻了 3-4 倍——open reasoning 反而比关闭更高。Grok 在做题分上升级,但摘要事实性显著恶化。
| 版本 | 发布 | HR ↓ | AA | 输出价 | 备注 |
|---|---|---|---|---|---|
| Grok 3 | 2025-02-17 | 5.8% | — | — | HHEM 5.8% · 家族最佳 |
| Grok 4 Fast (non-reasoning) | 2025-09-19 | 19.7% | — | — | HHEM 19.7% |
| Grok 4 Fast (reasoning) | 2025-09-19 | 20.2% | — | — | HHEM 20.2% · 家族最差 |
| Grok 4.1 Fast (non-reasoning) | 2025-11-19 | 17.8% | — | — | HHEM 17.8% |
| Grok 4.1 Fast (reasoning) | 2025-11-19 | 19.2% | — | — | HHEM 19.2% · 开 reasoning 反而更糟 |
三条横跨家族的规律
最典型 GPT-5.4 nano(HR 3.1% / AA 44.0)vs GPT-5.5(HR 9.3% / AA 60.2)—— 智能分涨了 16 分,幻觉率反而高了 3 倍。Claude Opus 4.5 → 4.7 同样:智能从未公布跳到 57.3 全球 #2,HR 从 10.9% 升到 12.0%。 DeepSeek R1 比 V3 智能高,但 HR 高 5 个百分点。 如果你跑 RAG / 摘要 / 合规生成,不要看「最强模型」榜单,去看 HHEM 榜单。
Grok 4 Fast:non-reasoning HR 19.7%,reasoning HR 20.2%——开思考反而更糟。 Grok 4.1 Fast 一样:non-reasoning 17.8% vs reasoning 19.2%。 DeepSeek 这边 V3 → R1,HR 从 6.1% 飙到 11.3%。Qwen3-Next 80B Thinking HR 9.3% 也明显高于同尺寸 non-thinking 版本。 推理链拉长,意味着更多"自由发挥"的机会,对事实性任务反而是负担。
GPT-5.4 nano 3.1% 是 OpenAI 全家族最低;Gemini 2.5 Flash-Lite 3.3% 是 Google 史上最低; Claude Haiku 4.5 9.8% 低于 Sonnet / Opus 全代;Qwen3 8B HR 4.8% 比自家 235B 旗舰还低 4.5pp。 "越大越聪明,越大越爱编"——做摘要 / 信息抽取这种活,便宜的小模型反而更靠得住。
基于代际数据的选型建议
首选 GPT-5.4 nano(HR 3.1%) 或 Gemini 2.5 Flash-Lite(HR 3.3%)。 国内场景选 DeepSeek V3.1(HR 5.5%),价格低、HR 是 V4-Pro 的 64%。 避开 Grok 4 Fast 全系(17-20%)、Claude Opus 4.7(12%)、Kimi K2 Instruct(17.9%)。
智能分优先:GPT-5.5(AA 60.2 #1)、Claude Opus 4.7(AA 57.3 #2)、Gemini 3.1 Pro Preview(AA 57.2 #3)。 幻觉率有惩罚(9.3%-12%),但 Agent 跑长链路、写代码这种事,"对的多" 比 "编得少" 更值钱。
DeepSeek V3.1(HR 5.5% + 国内最便宜)+ Kimi K2.6(HR 10.8% + 长上下文 + 三代连续改进)的组合最稳。 Qwen 体系选小尺寸(Qwen3 8B HR 4.8%),不要默认用 Qwen3.5 全系——HR 普遍比 Qwen3 退步 5pp。
按家族区别对待:Kimi、OpenAI 5.4 mini/nano 档 升级值得; Claude、DeepSeek、GLM 升级看场景——做题任务跟着升,事实生成任务可以晚一两代; Gemini 3 系列、Qwen3.5、Grok 4 在 HR 上明显回退,老版本反而更适合摘要 / 信息抽取。
数据来源与局限
幻觉率(HR):来自 Vectara HHEM-2.3 公开排行榜,May 11, 2026 数据版本。让模型对 7700+ 篇文档做摘要,HHEM-2.3 评估事实一致性,温度=0。 源数据:github.com/vectara/hallucination-leaderboard。
智能分(AA Intelligence):来自 Artificial Analysis,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等基准。抓取于 2026-05-12。
输出价:来自 OpenRouter API 公开报价,抓取于 2026-05-14。单位 USD / 百万输出 token。
局限: ① HHEM 只测摘要任务,不能代表"模型整体能力"; ② 部分家族(Qwen3.6 Max、MiMo、Grok 4.3、GLM 5.1 等)尚未被 Vectara 收录,本页用"—"占位; ③ 同代模型可能有多个尺寸 / reasoning effort 变体,本页保留有 HHEM 数据的全部条目以呈现真实波动; ④ HR ↑ 不等于"模型变差了"——做题、代码、推理可能同期变强,但这种横向 trade-off 必须被显示出来,不能藏起来。