深度分析 · 2026-05-15

LLM 家族代际演化：升级是变强还是变差了

每隔几个月就有新版本号出来——Claude 4.5 → 4.6 → 4.7、GPT-5 → 5.4 → 5.5、Gemini 2.5 → 3 → 3.1。厂商发布会都在讲"全面升级"，但同一家不同代的模型，在同一份基准上到底是变好还是变差了？这一篇把 8 大家族 60 多个具体版本 在 Vectara HHEM 幻觉率、AA Intelligence 智能分、API 价格上的纵向数据摆到一起—— 让代号自己说话。

先看结论

家族	趋势	最早一代 HR	最新一代 HR	变化
Anthropic Claude	升降互现	10.3% Sonnet 4	12.0% Opus 4.7	↑ 1.7pp
OpenAI GPT-5	升降互现	14.7% GPT-5 (minimal)	9.3% GPT-5.5	↓ 5.4pp
Google Gemini	代际恶化	7.8% Gemini 2.5 Flash	10.4% Gemini 3.1 Pro Preview	↑ 2.6pp
DeepSeek 🇨🇳	升降互现	6.1% DeepSeek V3	8.6% DeepSeek V4-Pro	↑ 2.5pp
Qwen 阿里 🇨🇳	代际恶化	5.7% Qwen3 4B	10.5% Qwen3.5 Flash	↑ 4.8pp
GLM 智谱 🇨🇳	横盘没变	9.3% GLM-4.5 Air FP8	10.1% GLM-5	↑ 0.8pp
Kimi 月之暗面 🇨🇳	稳步改善	17.9% Kimi K2 Instruct	10.8% Kimi K2.6	↓ 7.1pp
Grok xAI	代际恶化	5.8% Grok 3	19.2% Grok 4.1 Fast (reasoning)	↑ 13.4pp

最早一代 = 该家族在 Vectara HHEM 中最早一个有数据的版本；最新一代 = 同榜里最新一个版本。变化 = 最新 HR − 最早 HR，负值表示改善。HR 不等于综合能力，只反映摘要任务的事实一致性，但对 RAG / 客服 / 医疗法律场景非常关键。

Anthropic Claude

升降互现

四代旗舰 HR 长期卡在 10-12% 区间没有突破，最新 Opus 4.7 反而比半年前的 4.5 更爱"加戏"。智能分一路上涨，但"不胡说"这件事一直没解决。

版本	发布	HR ↓	AA	输出价	备注
Sonnet 4	2025-05-14	10.3%	—	—	HHEM 10.3%（家族最低之一）
Opus 4	2025-05-14	12.0%	—	—	HHEM 12.0%
Opus 4.1	2025-08-05	11.8%	—	—	HHEM 11.8%，微降
Sonnet 4.5	2025-09-29	12.0%	—	—	HHEM 12.0%，比 Sonnet 4 反升 1.7pp
Haiku 4.5	2025-10-01	9.8%	—	—	HHEM 9.8% · 家族最低
Opus 4.5	2025-11-01	10.9%	—	—	HHEM 10.9% · 旗舰里 HR 最低的一代
Sonnet 4.6	2026-02-17	10.6%	51.7	$15.00	HHEM 10.6% / AA 51.7
Opus 4.6	2026-02-17	12.2%	—	—	HHEM 12.2% · 比 4.5 退步 1.3pp
Opus 4.7	2026-04-16	12.0%	57.3	$25.00	AA 57.3 升至全球 #2，但 HHEM 12.0% 没有改善

OpenAI GPT-5

升降互现

半年内从 GPT-5 演进到 GPT-5.5，幻觉率从 15% 一路降到 3-9%，5.4 系列尤其惊艳；5.5 旗舰为追求做题分又反弹回 9.3%，呈"做题强 vs 不胡说"的反向 trade-off。

版本	发布	HR ↓	AA	输出价	备注
GPT-5 (minimal)	2025-08-07	14.7%	—	—	HHEM 14.7%
GPT-5 (high)	2025-08-07	15.1%	—	—	HHEM 15.1% · 家族最差
GPT-5 mini	2025-08-07	12.9%	—	—	HHEM 12.9%
GPT-5 nano	2025-08-07	10.5%	—	—	HHEM 10.5%
GPT-5.1 (low)	2025-11-13	10.9%	—	—	HHEM 10.9%
GPT-5.1 (high)	2025-11-13	12.1%	—	—	HHEM 12.1%
GPT-5.2 (low)	2025-12-11	8.4%	—	—	HHEM 8.4% · 首次跌破 10%
GPT-5.2 (high)	2025-12-11	10.8%	—	—	HHEM 10.8%
GPT-5.4	2026-03-05	7.0%	47.9	$15.00	HHEM 7.0%
GPT-5.4 pro	2026-03-05	8.3%	—	—	HHEM 8.3%
GPT-5.4 nano	2026-03-17	3.1%	44.0	$1.25	HHEM 3.1% · 全榜第 2，跨代质变
GPT-5.4 mini	2026-03-17	5.5%	48.9	$4.50	HHEM 5.5%
GPT-5.5	2026-04-23	9.3%	60.2	$30.00	AA 60.24 全球 #1，但 HHEM 9.3% 比 5.4 mini 退步 3.8pp

Google Gemini

代际恶化

最戏剧的代际回退：2.5 系列 HR 仅 3-8%（Flash-Lite 3.3% 全榜第 3），到了 3.x Preview 全线翻倍恶化至 13.5/13.6%，3.1 Preview 在修但还差 2.5 一截。

版本	发布	HR ↓	AA	输出价	备注
Gemini 2.5 Flash	2025-06-17	7.8%	—	—	HHEM 7.8%
Gemini 2.5 Pro	2025-06-17	7.0%	—	—	HHEM 7.0%
Gemini 2.5 Flash-Lite	2025-09-18	3.3%	—	—	HHEM 3.3% · 全榜第 3
Gemini 3 Flash Preview	2025-12-17	13.5%	46.4	$3.00	HHEM 13.5% · 比 2.5 Flash 退步 5.7pp
Gemini 3 Pro Preview	2025-12-17	13.6%	—	—	HHEM 13.6% · 比 2.5 Pro 退步 6.6pp
Gemini 3.1 Flash Lite Preview	2026-02-25	8.2%	—	—	HHEM 8.2% · 在修复
Gemini 3.1 Pro Preview	2026-04-04	10.4%	57.2	$12.00	HHEM 10.4% · AA 57.2 全球 #3，但 HR 还没回到 2.5 Pro 水平

DeepSeek 🇨🇳 国内

升降互现

V3 系列幻觉率长期保持在 5-6% 第一梯队，但 V4-Pro 跳到 8.6%、R1 推理版高达 11.3%——这家典型「做题更强但更爱编」的代际特征。

版本	发布	HR ↓	AA	输出价	备注
DeepSeek V3	2024-12-26	6.1%	—	—	HHEM 6.1%
DeepSeek R1	2025-01-20	11.3%	—	—	HHEM 11.3% · 首款推理模型，HR 比 V3 高 5.2pp
DeepSeek V3.1	2025-08-21	5.5%	—	—	HHEM 5.5% · 家族最低
DeepSeek V3.2	2025-09-29	6.3%	—	—	HHEM 6.3%
DeepSeek V3.2-Exp	2025-09-29	5.3%	—	—	HHEM 5.3% · Exp 反而比稳定版低
DeepSeek V4-Pro	2026-03-21	8.6%	51.5	$0.87	AA 51.46 / HR 8.6% · 智能分上去了，但 HR 比 V3.1 退步 3.1pp

Qwen 阿里 🇨🇳 国内

代际恶化

Qwen3 小尺寸（4B/8B/14B/32B）幻觉率 4.8-5.9% 排在全榜前列，但升级到 Qwen3.5 全线退步到 10-12%——更大、更新的模型在摘要场景反而不如自家半年前的小尺寸。

版本	发布	HR ↓	AA	输出价	备注
Qwen3 4B	2025-04-29	5.7%	—	—	HHEM 5.7%
Qwen3 8B	2025-04-29	4.8%	—	—	HHEM 4.8% · 家族最低
Qwen3 14B	2025-04-29	5.4%	—	—	HHEM 5.4%
Qwen3 32B	2025-04-29	5.9%	—	—	HHEM 5.9%
Qwen3 235B A22B	2025-07-23	9.3%	—	—	HHEM 9.3%
Qwen3-Next 80B Thinking	2025-09-11	9.3%	—	—	HHEM 9.3%
Qwen3.5 Plus	2026-02-15	10.7%	—	—	HHEM 10.7%
Qwen3.5 27B	2026-02-22	12.1%	—	—	HHEM 12.1%
Qwen3.5 35B A3B	2026-02-22	10.5%	—	—	HHEM 10.5%
Qwen3.5 122B A10B	2026-02-22	11.2%	—	—	HHEM 11.2%
Qwen3.5 Flash	2026-02-23	10.5%	—	—	HHEM 10.5%

GLM 智谱 🇨🇳 国内

横盘没变

从 4.5 到 5 横盘在 9-12% 区间，没有出现 OpenAI / Kimi 那种跨代质变。GLM-5 是家族最新但 HR 反而比 4.7-flash 高 0.8pp。

版本	发布	HR ↓	AA	输出价	备注
GLM-4.5 Air FP8	2025-07-28	9.3%	—	—	HHEM 9.3%
GLM-4.6	2025-09-30	9.5%	—	—	HHEM 9.5%
GLM-4.7	2025-12-18	11.7%	—	—	HHEM 11.7% · 家族最差
GLM-4.7 Flash	2026-01-15	9.3%	—	—	HHEM 9.3% · 比 4.7 修复 2.4pp
GLM-5	2026-03-18	10.1%	49.8	$1.92	AA 49.81 / HR 10.1%

Kimi 月之暗面 🇨🇳 国内

稳步改善

三代演化里 HR 一路下降——K2 17.9% → K2.5 14.2% → K2.6 10.8%，是 HHEM 上"真改进"曲线最干净的国产家族。

版本	发布	HR ↓	AA	输出价	备注
Kimi K2 Instruct	2025-09-05	17.9%	—	—	HHEM 17.9%
Kimi K2.5	2025-12-21	14.2%	—	—	HHEM 14.2% · 比 K2 降 3.7pp
Kimi K2.6	2026-03-04	10.8%	53.9	$3.50	AA 53.94 / HR 10.8% · 又降 3.4pp，跨代稳步改善

Grok xAI

代际恶化

从 Grok 3 的 5.8% 到 Grok 4 Fast 系列的 17.8-20.2%，HR 翻了 3-4 倍——open reasoning 反而比关闭更高。Grok 在做题分上升级，但摘要事实性显著恶化。

版本	发布	HR ↓	AA	输出价	备注
Grok 3	2025-02-17	5.8%	—	—	HHEM 5.8% · 家族最佳
Grok 4 Fast (non-reasoning)	2025-09-19	19.7%	—	—	HHEM 19.7%
Grok 4 Fast (reasoning)	2025-09-19	20.2%	—	—	HHEM 20.2% · 家族最差
Grok 4.1 Fast (non-reasoning)	2025-11-19	17.8%	—	—	HHEM 17.8%
Grok 4.1 Fast (reasoning)	2025-11-19	19.2%	—	—	HHEM 19.2% · 开 reasoning 反而更糟

三条横跨家族的规律

1. 「做题更强」和「不胡说」常常对着干

最典型 GPT-5.4 nano（HR 3.1% / AA 44.0）vs GPT-5.5（HR 9.3% / AA 60.2）—— 智能分涨了 16 分，幻觉率反而高了 3 倍。Claude Opus 4.5 → 4.7 同样：智能从未公布跳到 57.3 全球 #2，HR 从 10.9% 升到 12.0%。 DeepSeek R1 比 V3 智能高，但 HR 高 5 个百分点。 如果你跑 RAG / 摘要 / 合规生成，不要看「最强模型」榜单，去看 HHEM 榜单。

2. 推理模式（reasoning / thinking）经常拉高幻觉

Grok 4 Fast：non-reasoning HR 19.7%，reasoning HR 20.2%——开思考反而更糟。 Grok 4.1 Fast 一样：non-reasoning 17.8% vs reasoning 19.2%。 DeepSeek 这边 V3 → R1，HR 从 6.1% 飙到 11.3%。Qwen3-Next 80B Thinking HR 9.3% 也明显高于同尺寸 non-thinking 版本。 推理链拉长，意味着更多"自由发挥"的机会，对事实性任务反而是负担。

3. 小模型 / Lite / Nano / Flash-Lite 经常比同家族旗舰更"老实"

GPT-5.4 nano 3.1% 是 OpenAI 全家族最低；Gemini 2.5 Flash-Lite 3.3% 是 Google 史上最低； Claude Haiku 4.5 9.8% 低于 Sonnet / Opus 全代；Qwen3 8B HR 4.8% 比自家 235B 旗舰还低 4.5pp。 "越大越聪明，越大越爱编"——做摘要 / 信息抽取这种活，便宜的小模型反而更靠得住。

基于代际数据的选型建议

RAG / 知识库问答 / 摘要

首选 GPT-5.4 nano（HR 3.1%） 或 Gemini 2.5 Flash-Lite（HR 3.3%）。国内场景选 DeepSeek V3.1（HR 5.5%），价格低、HR 是 V4-Pro 的 64%。 避开 Grok 4 Fast 全系（17-20%）、Claude Opus 4.7（12%）、Kimi K2 Instruct（17.9%）。

复杂代码 / 推理 / Agent 编排

智能分优先：GPT-5.5（AA 60.2 #1）、Claude Opus 4.7（AA 57.3 #2）、Gemini 3.1 Pro Preview（AA 57.2 #3）。幻觉率有惩罚（9.3%-12%），但 Agent 跑长链路、写代码这种事，"对的多" 比 "编得少" 更值钱。

国内厂商 · 性价比型生产

DeepSeek V3.1（HR 5.5% + 国内最便宜）+ Kimi K2.6（HR 10.8% + 长上下文 + 三代连续改进）的组合最稳。 Qwen 体系选小尺寸（Qwen3 8B HR 4.8%），不要默认用 Qwen3.5 全系——HR 普遍比 Qwen3 退步 5pp。

"升级了一定要换"还是"老版本能用就用"

按家族区别对待：Kimi、OpenAI 5.4 mini/nano 档 升级值得； Claude、DeepSeek、GLM 升级看场景——做题任务跟着升，事实生成任务可以晚一两代； Gemini 3 系列、Qwen3.5、Grok 4 在 HR 上明显回退，老版本反而更适合摘要 / 信息抽取。

数据来源与局限

幻觉率（HR）：来自 Vectara HHEM-2.3 公开排行榜，May 11, 2026 数据版本。让模型对 7700+ 篇文档做摘要，HHEM-2.3 评估事实一致性，温度=0。源数据：github.com/vectara/hallucination-leaderboard。

智能分（AA Intelligence）：来自 Artificial Analysis，综合 GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench / TerminalBench / IFBench 等基准。抓取于 2026-05-12。

输出价：来自 OpenRouter API 公开报价，抓取于 2026-05-14。单位 USD / 百万输出 token。

局限： ① HHEM 只测摘要任务，不能代表"模型整体能力"； ② 部分家族（Qwen3.6 Max、MiMo、Grok 4.3、GLM 5.1 等）尚未被 Vectara 收录，本页用"—"占位； ③ 同代模型可能有多个尺寸 / reasoning effort 变体，本页保留有 HHEM 数据的全部条目以呈现真实波动； ④ HR ↑ 不等于"模型变差了"——做题、代码、推理可能同期变强，但这种横向 trade-off 必须被显示出来，不能藏起来。

先看结论

Anthropic Claude

OpenAI GPT-5

Google Gemini

DeepSeek 🇨🇳 国内

Qwen 阿里 🇨🇳 国内

GLM 智谱 🇨🇳 国内

Kimi 月之暗面 🇨🇳 国内

Grok xAI

三条横跨家族的规律

基于代际数据的选型建议

数据来源与局限

相关阅读