深度分析 · 2026-05-15

LLM 家族代际演化:升级是变强还是变差了

每隔几个月就有新版本号出来——Claude 4.5 → 4.6 → 4.7、GPT-5 → 5.4 → 5.5、Gemini 2.5 → 3 → 3.1。 厂商发布会都在讲"全面升级",但同一家不同代的模型,在同一份基准上到底是变好还是变差了? 这一篇把 8 大家族 60 多个具体版本 在 Vectara HHEM 幻觉率、AA Intelligence 智能分、API 价格上的纵向数据摆到一起—— 让代号自己说话。

先看结论

家族 趋势 最早一代 HR 最新一代 HR 变化
Anthropic Claude 升降互现 10.3%
Sonnet 4
12.0%
Opus 4.7
↑ 1.7pp
OpenAI GPT-5 升降互现 14.7%
GPT-5 (minimal)
9.3%
GPT-5.5
↓ 5.4pp
Google Gemini 代际恶化 7.8%
Gemini 2.5 Flash
10.4%
Gemini 3.1 Pro Preview
↑ 2.6pp
DeepSeek 🇨🇳 升降互现 6.1%
DeepSeek V3
8.6%
DeepSeek V4-Pro
↑ 2.5pp
Qwen 阿里 🇨🇳 代际恶化 5.7%
Qwen3 4B
10.5%
Qwen3.5 Flash
↑ 4.8pp
GLM 智谱 🇨🇳 横盘没变 9.3%
GLM-4.5 Air FP8
10.1%
GLM-5
↑ 0.8pp
Kimi 月之暗面 🇨🇳 稳步改善 17.9%
Kimi K2 Instruct
10.8%
Kimi K2.6
↓ 7.1pp
Grok xAI 代际恶化 5.8%
Grok 3
19.2%
Grok 4.1 Fast (reasoning)
↑ 13.4pp

最早一代 = 该家族在 Vectara HHEM 中最早一个有数据的版本;最新一代 = 同榜里最新一个版本。 变化 = 最新 HR − 最早 HR,负值表示改善。HR 不等于综合能力,只反映摘要任务的事实一致性,但对 RAG / 客服 / 医疗法律场景非常关键。

Anthropic Claude

升降互现

四代旗舰 HR 长期卡在 10-12% 区间没有突破,最新 Opus 4.7 反而比半年前的 4.5 更爱"加戏"。智能分一路上涨,但"不胡说"这件事一直没解决。

版本 发布 HR ↓ AA 输出价 备注
Sonnet 4 2025-05-14 10.3% HHEM 10.3%(家族最低之一)
Opus 4 2025-05-14 12.0% HHEM 12.0%
Opus 4.1 2025-08-05 11.8% HHEM 11.8%,微降
Sonnet 4.5 2025-09-29 12.0% HHEM 12.0%,比 Sonnet 4 反升 1.7pp
Haiku 4.5 2025-10-01 9.8% HHEM 9.8% · 家族最低
Opus 4.5 2025-11-01 10.9% HHEM 10.9% · 旗舰里 HR 最低的一代
Sonnet 4.6 2026-02-17 10.6% 51.7 $15.00 HHEM 10.6% / AA 51.7
Opus 4.6 2026-02-17 12.2% HHEM 12.2% · 比 4.5 退步 1.3pp
Opus 4.7 2026-04-16 12.0% 57.3 $25.00 AA 57.3 升至全球 #2,但 HHEM 12.0% 没有改善

OpenAI GPT-5

升降互现

半年内从 GPT-5 演进到 GPT-5.5,幻觉率从 15% 一路降到 3-9%,5.4 系列尤其惊艳;5.5 旗舰为追求做题分又反弹回 9.3%,呈"做题强 vs 不胡说"的反向 trade-off。

版本 发布 HR ↓ AA 输出价 备注
GPT-5 (minimal) 2025-08-07 14.7% HHEM 14.7%
GPT-5 (high) 2025-08-07 15.1% HHEM 15.1% · 家族最差
GPT-5 mini 2025-08-07 12.9% HHEM 12.9%
GPT-5 nano 2025-08-07 10.5% HHEM 10.5%
GPT-5.1 (low) 2025-11-13 10.9% HHEM 10.9%
GPT-5.1 (high) 2025-11-13 12.1% HHEM 12.1%
GPT-5.2 (low) 2025-12-11 8.4% HHEM 8.4% · 首次跌破 10%
GPT-5.2 (high) 2025-12-11 10.8% HHEM 10.8%
GPT-5.4 2026-03-05 7.0% 47.9 $15.00 HHEM 7.0%
GPT-5.4 pro 2026-03-05 8.3% HHEM 8.3%
GPT-5.4 nano 2026-03-17 3.1% 44.0 $1.25 HHEM 3.1% · 全榜第 2,跨代质变
GPT-5.4 mini 2026-03-17 5.5% 48.9 $4.50 HHEM 5.5%
GPT-5.5 2026-04-23 9.3% 60.2 $30.00 AA 60.24 全球 #1,但 HHEM 9.3% 比 5.4 mini 退步 3.8pp

Google Gemini

代际恶化

最戏剧的代际回退:2.5 系列 HR 仅 3-8%(Flash-Lite 3.3% 全榜第 3),到了 3.x Preview 全线翻倍恶化至 13.5/13.6%,3.1 Preview 在修但还差 2.5 一截。

版本 发布 HR ↓ AA 输出价 备注
Gemini 2.5 Flash 2025-06-17 7.8% HHEM 7.8%
Gemini 2.5 Pro 2025-06-17 7.0% HHEM 7.0%
Gemini 2.5 Flash-Lite 2025-09-18 3.3% HHEM 3.3% · 全榜第 3
Gemini 3 Flash Preview 2025-12-17 13.5% 46.4 $3.00 HHEM 13.5% · 比 2.5 Flash 退步 5.7pp
Gemini 3 Pro Preview 2025-12-17 13.6% HHEM 13.6% · 比 2.5 Pro 退步 6.6pp
Gemini 3.1 Flash Lite Preview 2026-02-25 8.2% HHEM 8.2% · 在修复
Gemini 3.1 Pro Preview 2026-04-04 10.4% 57.2 $12.00 HHEM 10.4% · AA 57.2 全球 #3,但 HR 还没回到 2.5 Pro 水平

DeepSeek 🇨🇳 国内

升降互现

V3 系列幻觉率长期保持在 5-6% 第一梯队,但 V4-Pro 跳到 8.6%、R1 推理版高达 11.3%——这家典型「做题更强但更爱编」的代际特征。

版本 发布 HR ↓ AA 输出价 备注
DeepSeek V3 2024-12-26 6.1% HHEM 6.1%
DeepSeek R1 2025-01-20 11.3% HHEM 11.3% · 首款推理模型,HR 比 V3 高 5.2pp
DeepSeek V3.1 2025-08-21 5.5% HHEM 5.5% · 家族最低
DeepSeek V3.2 2025-09-29 6.3% HHEM 6.3%
DeepSeek V3.2-Exp 2025-09-29 5.3% HHEM 5.3% · Exp 反而比稳定版低
DeepSeek V4-Pro 2026-03-21 8.6% 51.5 $0.87 AA 51.46 / HR 8.6% · 智能分上去了,但 HR 比 V3.1 退步 3.1pp

Qwen 阿里 🇨🇳 国内

代际恶化

Qwen3 小尺寸(4B/8B/14B/32B)幻觉率 4.8-5.9% 排在全榜前列,但升级到 Qwen3.5 全线退步到 10-12%——更大、更新的模型在摘要场景反而不如自家半年前的小尺寸。

版本 发布 HR ↓ AA 输出价 备注
Qwen3 4B 2025-04-29 5.7% HHEM 5.7%
Qwen3 8B 2025-04-29 4.8% HHEM 4.8% · 家族最低
Qwen3 14B 2025-04-29 5.4% HHEM 5.4%
Qwen3 32B 2025-04-29 5.9% HHEM 5.9%
Qwen3 235B A22B 2025-07-23 9.3% HHEM 9.3%
Qwen3-Next 80B Thinking 2025-09-11 9.3% HHEM 9.3%
Qwen3.5 Plus 2026-02-15 10.7% HHEM 10.7%
Qwen3.5 27B 2026-02-22 12.1% HHEM 12.1%
Qwen3.5 35B A3B 2026-02-22 10.5% HHEM 10.5%
Qwen3.5 122B A10B 2026-02-22 11.2% HHEM 11.2%
Qwen3.5 Flash 2026-02-23 10.5% HHEM 10.5%

GLM 智谱 🇨🇳 国内

横盘没变

从 4.5 到 5 横盘在 9-12% 区间,没有出现 OpenAI / Kimi 那种跨代质变。GLM-5 是家族最新但 HR 反而比 4.7-flash 高 0.8pp。

版本 发布 HR ↓ AA 输出价 备注
GLM-4.5 Air FP8 2025-07-28 9.3% HHEM 9.3%
GLM-4.6 2025-09-30 9.5% HHEM 9.5%
GLM-4.7 2025-12-18 11.7% HHEM 11.7% · 家族最差
GLM-4.7 Flash 2026-01-15 9.3% HHEM 9.3% · 比 4.7 修复 2.4pp
GLM-5 2026-03-18 10.1% 49.8 $1.92 AA 49.81 / HR 10.1%

Kimi 月之暗面 🇨🇳 国内

稳步改善

三代演化里 HR 一路下降——K2 17.9% → K2.5 14.2% → K2.6 10.8%,是 HHEM 上"真改进"曲线最干净的国产家族。

版本 发布 HR ↓ AA 输出价 备注
Kimi K2 Instruct 2025-09-05 17.9% HHEM 17.9%
Kimi K2.5 2025-12-21 14.2% HHEM 14.2% · 比 K2 降 3.7pp
Kimi K2.6 2026-03-04 10.8% 53.9 $3.50 AA 53.94 / HR 10.8% · 又降 3.4pp,跨代稳步改善

Grok xAI

代际恶化

从 Grok 3 的 5.8% 到 Grok 4 Fast 系列的 17.8-20.2%,HR 翻了 3-4 倍——open reasoning 反而比关闭更高。Grok 在做题分上升级,但摘要事实性显著恶化。

版本 发布 HR ↓ AA 输出价 备注
Grok 3 2025-02-17 5.8% HHEM 5.8% · 家族最佳
Grok 4 Fast (non-reasoning) 2025-09-19 19.7% HHEM 19.7%
Grok 4 Fast (reasoning) 2025-09-19 20.2% HHEM 20.2% · 家族最差
Grok 4.1 Fast (non-reasoning) 2025-11-19 17.8% HHEM 17.8%
Grok 4.1 Fast (reasoning) 2025-11-19 19.2% HHEM 19.2% · 开 reasoning 反而更糟

三条横跨家族的规律

1. 「做题更强」和「不胡说」常常对着干

最典型 GPT-5.4 nano(HR 3.1% / AA 44.0)vs GPT-5.5(HR 9.3% / AA 60.2)—— 智能分涨了 16 分,幻觉率反而高了 3 倍。Claude Opus 4.5 → 4.7 同样:智能从未公布跳到 57.3 全球 #2,HR 从 10.9% 升到 12.0%。 DeepSeek R1 比 V3 智能高,但 HR 高 5 个百分点。 如果你跑 RAG / 摘要 / 合规生成,不要看「最强模型」榜单,去看 HHEM 榜单。

2. 推理模式(reasoning / thinking)经常拉高幻觉

Grok 4 Fast:non-reasoning HR 19.7%,reasoning HR 20.2%——开思考反而更糟。 Grok 4.1 Fast 一样:non-reasoning 17.8% vs reasoning 19.2%。 DeepSeek 这边 V3 → R1,HR 从 6.1% 飙到 11.3%。Qwen3-Next 80B Thinking HR 9.3% 也明显高于同尺寸 non-thinking 版本。 推理链拉长,意味着更多"自由发挥"的机会,对事实性任务反而是负担。

3. 小模型 / Lite / Nano / Flash-Lite 经常比同家族旗舰更"老实"

GPT-5.4 nano 3.1% 是 OpenAI 全家族最低;Gemini 2.5 Flash-Lite 3.3% 是 Google 史上最低; Claude Haiku 4.5 9.8% 低于 Sonnet / Opus 全代;Qwen3 8B HR 4.8% 比自家 235B 旗舰还低 4.5pp。 "越大越聪明,越大越爱编"——做摘要 / 信息抽取这种活,便宜的小模型反而更靠得住。

基于代际数据的选型建议

RAG / 知识库问答 / 摘要

首选 GPT-5.4 nano(HR 3.1%)Gemini 2.5 Flash-Lite(HR 3.3%)。 国内场景选 DeepSeek V3.1(HR 5.5%),价格低、HR 是 V4-Pro 的 64%。 避开 Grok 4 Fast 全系(17-20%)、Claude Opus 4.7(12%)、Kimi K2 Instruct(17.9%)

复杂代码 / 推理 / Agent 编排

智能分优先:GPT-5.5(AA 60.2 #1)Claude Opus 4.7(AA 57.3 #2)Gemini 3.1 Pro Preview(AA 57.2 #3)。 幻觉率有惩罚(9.3%-12%),但 Agent 跑长链路、写代码这种事,"对的多" 比 "编得少" 更值钱。

国内厂商 · 性价比型生产

DeepSeek V3.1(HR 5.5% + 国内最便宜)+ Kimi K2.6(HR 10.8% + 长上下文 + 三代连续改进)的组合最稳。 Qwen 体系选小尺寸(Qwen3 8B HR 4.8%),不要默认用 Qwen3.5 全系——HR 普遍比 Qwen3 退步 5pp。

"升级了一定要换"还是"老版本能用就用"

按家族区别对待:Kimi、OpenAI 5.4 mini/nano 档 升级值得; Claude、DeepSeek、GLM 升级看场景——做题任务跟着升,事实生成任务可以晚一两代; Gemini 3 系列、Qwen3.5、Grok 4 在 HR 上明显回退,老版本反而更适合摘要 / 信息抽取。

数据来源与局限

幻觉率(HR):来自 Vectara HHEM-2.3 公开排行榜,May 11, 2026 数据版本。让模型对 7700+ 篇文档做摘要,HHEM-2.3 评估事实一致性,温度=0。 源数据:github.com/vectara/hallucination-leaderboard

智能分(AA Intelligence):来自 Artificial Analysis,综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等基准。抓取于 2026-05-12。

输出价:来自 OpenRouter API 公开报价,抓取于 2026-05-14。单位 USD / 百万输出 token。

局限: ① HHEM 只测摘要任务,不能代表"模型整体能力"; ② 部分家族(Qwen3.6 Max、MiMo、Grok 4.3、GLM 5.1 等)尚未被 Vectara 收录,本页用"—"占位; ③ 同代模型可能有多个尺寸 / reasoning effort 变体,本页保留有 HHEM 数据的全部条目以呈现真实波动; ④ HR ↑ 不等于"模型变差了"——做题、代码、推理可能同期变强,但这种横向 trade-off 必须被显示出来,不能藏起来。

相关阅读