2026-05-14 / 2026-05-12 · 排行榜 · 幻觉控制专项

LLM 幻觉率排行：哪个大模型说瞎话最少

AI 说瞎话是所有用户都躲不掉的坑。本页并列展示两份独立榜单： Vectara HHEM-2.3 摘要幻觉评测（让模型对 7700+ 篇英文文档做摘要，检测事实一致性）和 SuperCLUE 幻觉控制（中文场景问答幻觉评测）。两者测试语言、任务形式完全不同，排名差异本身就是最值得看的信息。

最准的不是旗舰，是小模型和领域模型。 Vectara HHEM 前 5 名里：蚂蚁的 finix_s1_32b 幻觉率 1.8% 全球第一（金融领域专项调优）， GPT-5.4 Nano（3.1%）、Gemini 2.5 Flash Lite（3.3%）、Phi-4（3.7%）、Llama-3.3-70B（4.1%）。旗舰模型反而靠后：GPT-5.5 9.3%、Claude Opus 4.7 12.0%、Gemini 3.1 Pro Preview 10.4%。原因不复杂——小模型不会"自作主张补全空白"，反而更老老实实贴着原文。

"Thinking / Reasoning"模式不一定降低幻觉，有时反而升高。 OpenAI 的 o3-pro 幻觉率 23.3%（倒数第 4）、o4-mini-high 18.6%、Grok-4-fast-reasoning 20.2%。模型边推理边"补全"自己的逻辑空白，结果离原文越来越远。如果你做 RAG 或事实校验，非 thinking 版本可能比 thinking 版本更可靠。

国内模型在 Vectara 上的整体表现优于 Claude 全系列。 DeepSeek V4 Pro 8.6%、MiniMax M2.5 9.1%、GLM-4.6 9.5%、GLM-5 10.1%、Kimi K2.6 10.8%。而 Claude Opus 4.5/4.6/4.7 都在 10.9%-12.2% 之间，Claude Sonnet 4.6 也有 10.6%。 Anthropic 的"安全对齐"看起来没让 Claude 在摘要任务里更诚实—— 反而是国内开源旗舰在 RAG 场景下值得认真考虑。

中文幻觉控制和英文摘要幻觉是两件事。 GLM-5 在 SuperCLUE 幻觉控制以 86.85 排第一，但 Vectara HHEM 上幻觉率 10.1% 只排第 6。 Claude Opus 4.6 SuperCLUE 第 3（82.95），Vectara 第 9（12.2%）。 Kimi K2.5 中文场景表现良好（77.61 第 7），但英文摘要幻觉高达 14.2%（倒数第 3）。选模型不能只看一份榜单——中文 RAG 用 SuperCLUE 参考，英文摘要用 Vectara 参考，跨语言场景需要交叉验证。

Vectara HHEM-2.3 · Top 25 幻觉率最低

来源：github.com/vectara/hallucination-leaderboard， May 11, 2026 更新，2026-05-14 抓取。 HHEM-2.3 给每个模型喂 7700+ 篇文档（新闻、科技、医疗、法律、商业等），让它做摘要，然后机器评估摘要里多少信息是文档没说过的（即幻觉）。温度=0。注意 Answer Rate 列——拒答率太低（如 Phi-4 80.7%、Snowflake 62.7%）会让幻觉率失真，需结合看。

#	模型	幻觉率	答题率	AA 智能	输出价
1	finix_s1_32b antgroup	1.8%	99.5%	—	—
2	gpt-5.4-nano-2026-03-17 openai	3.1%	100.0%	47.9	$15.00
3	gemini-2.5-flash-lite google	3.3%	99.5%	—	$10.00
4	Phi-4 microsoft	3.7%	80.7%	—	—
5	Llama-3.3-70B-Instruct-Turbo meta-llama	4.1%	99.5%	—	—
6	snowflake-arctic-instruct snowflake	4.3%	62.7%	—	—
7	gemma-3-12b-it google	4.4%	97.4%	—	—
8	mistral-large-2411 mistralai	4.5%	99.9%	—	—
9	qwen3-8b qwen	4.8%	99.9%	—	$3.90
10	nova-pro-v1:0 amazon	5.1%	99.3%	—	—
11	nova-2-lite-v1:0 amazon	5.1%	99.6%	—	—
12	mistral-small-2501 mistralai	5.1%	97.9%	—	—
13	granite-4.0-h-small ibm-granite	5.2%	100.0%	—	—
14	gemma-4-26b-a4b-it google	5.2%	99.8%	—	—
15	jamba-mini-2 ai21labs	5.3%	99.6%	—	—
16	DeepSeek-V3.2-Exp deepseek-ai	5.3%	96.6%	51.5	$0.87
17	qwen3-14b qwen	5.4%	99.9%	—	$3.90
18	nova-micro-v1:0 amazon	5.5%	100.0%	—	—
19	DeepSeek-V3.1 deepseek-ai	5.5%	94.5%	51.5	$0.87
20	gpt-5.4-mini-2026-03-17 openai	5.5%	100.0%	48.9	$15.00
21	gpt-4.1-2025-04-14 openai	5.6%	99.9%	—	—
22	qwen3-4b qwen	5.7%	99.9%	—	$3.90
23	grok-3 xai-org	5.8%	93.0%	—	—
24	qwen3-32b qwen	5.9%	99.9%	—	$3.90
25	nova-lite-v1:0 amazon	6.1%	99.9%	—	—

antgroup/finix_s1_32b 第一是惊喜也不算惊喜。 蚂蚁集团的金融大模型 Finix，HR 1.8% 比第二名几乎低一半。它是 32B 参数的领域模型，训练数据偏金融文本和合规摘要，在 Vectara 这种"严格按原文摘要"的任务里有结构性优势。但这不意味着它通用能力强——AA 智能没有数据，开放 API 也有限。

小模型集体屠榜。 GPT-5.4 Nano 3.1%（旗舰 GPT-5.5 的 1/3）、Gemini 2.5 Flash Lite 3.3%、 Llama-3.3-70B-Turbo 4.1%、qwen3-8b 4.8%。这是个反直觉的事实——参数越小、模型越倾向"少说话"，幻觉率反而越低。做 RAG 摘要时，用 Nano 档可能比旗舰更划算，又便宜又准。

DeepSeek 全系列稳定在 5-9%。 V3.2 5.3%、V3.1 5.5%、V3 6.1%、V3.2-Exp 5.3%、V4 Pro 8.6%。作为国内开源旗舰，DeepSeek 在英文摘要幻觉评测里和 OpenAI 主力模型基本同档，甚至比 Claude 全系列都低。如果你的 RAG 场景跑在国内、又要可控成本，DeepSeek 是合理选择。

Gemini 系列内部差距很大。 Gemini 2.5 Flash Lite 3.3% 排第三，但 Gemini 3.1 Pro Preview 10.4% 排到第 60 左右， Gemini 3-Pro Preview 更是 13.6% 接近垫底。 Google 的"小"系列幻觉控制远好于"大"系列，这点和 OpenAI 类似但更极端。

SuperCLUE 幻觉控制 · 中文场景

来源：superclueai.com， 2026年3月榜，2026-05-12 抓取。SuperCLUE 的幻觉控制涵盖中文事实问答、常识判断、多轮对话事实一致性等场景，得分越高代表幻觉越少。注意 SuperCLUE 排名"-"或符号只代表是否参与排名，分数本身可独立比较。

#	模型	幻觉控制	是否推理	国
1	GLM-5 智谱AI	86.85	是	🇨🇳
2	GPT-5.4(xhigh) OpenAI	85.43	是	🇺🇸
3	Qwen3.5-397B-A17B-Thinking 阿里巴巴	84.39	是	🇨🇳
4	Claude-Opus-4.6(max) Anthropic	82.95	是	🇺🇸
5	Gemini-3-Flash-Preview(high) Google	82.37	是	🇺🇸
6	DeepSeek-V4-Pro(max) 深度求索	80.68	是	🇨🇳
7	Gemini-3.1-Pro-Preview(high) Google	80.50	是	🇺🇸
8	Doubao-Seed-2.0-pro-260215(high) 字节跳动	79.41	是	🇨🇳
9	Grok-4.20-Beta-0309(Reasoning) X.AI	77.89	是	🇺🇸
10	Kimi-K2.5-Thinking 月之暗面	77.61	是	🇨🇳
11	DeepSeek-V3.2-Thinking 深度求索	77.23	是	🇨🇳
12	Tencent HY 2.0 Think 腾讯	76.46	是	🇨🇳
13	DeepSeek-V4-Flash(max) 深度求索	75.67	是	🇨🇳
14	MiMo-V2-Pro 小米集团	73.80	是	🇨🇳
15	Qwen3.5-122B-A10B-Thinking 阿里巴巴	70.50	是	🇨🇳
16	MiniMax-M2.5 稀宇科技	67.41	是	🇨🇳
17	Llama-4-Maverick-17B-128E-Instruct Meta	66.74	—	🇺🇸
18	LongCat-Flash-Thinking-2601 美团	66.31	是	🇨🇳

GLM-5（智谱）以 86.85 拿下中文幻觉控制第一。 比 GPT-5.4（xhigh）85.43 高 1.42 分。这和 SuperCLUE 整体榜上 GLM-5 排第 6 形成反差—— 它的总分不是最高，但在"不胡说"这个维度上做到了极致。智谱在事实校验类任务上调优做得很深，做严肃问答、政府查询、医疗知识库时值得优先考虑。

国内厂商在中文幻觉控制上整体优于国际厂商。 前 6 名中 4 个是国内模型（GLM-5、Qwen3.5-397B-Thinking、DeepSeek V4 Pro、字节豆包 Seed 2.0），只有 GPT-5.4 和 Gemini-3-Flash-Preview 两个国际模型进入前 6。中文事实问答的训练语料对国内模型天然友好—— 国际模型即使中文表达流畅，对中文事实（人名、地名、政策、机构）的覆盖密度不如国内厂商。

"Thinking"对中文幻觉控制是双刃剑。 榜单上 Qwen3.5-397B-A17B-Thinking 84.39（#3）、Kimi K2.5-Thinking 77.61（#10）、 DeepSeek V3.2-Thinking 77.23（#11）都表现不错；但 LongCat-Flash-Thinking 只有 66.31、MiMo-V2-Pro 73.80。关键是模型的 thinking 是不是"真在校验"还是"在自圆其说"——后者会放大幻觉。

双榜交叉：14 个能映射的模型

下面 14 个模型同时出现在 SuperCLUE 幻觉控制榜和 Vectara HHEM 榜里（手工对齐版本号，避免命名差异导致的错配）。 "中文偏强 / 英文偏强 / 双榜对齐"标签反映的是两份榜单的相对排名差异—— 一个模型如果中文幻觉控制名次远好于英文摘要幻觉名次（差 ≥ 3 位），标"中文偏强"，反之亦然。

模型	SC 控制	SC 排	V 幻觉率	V 排	标签
GLM-5 智谱AI	86.85	#1	10.1%	#6	英文偏强
GPT-5.4(xhigh) OpenAI	85.43	#2	7%	#2	双榜对齐
Claude-Opus-4.6(max) Anthropic	82.95	#3	12.2%	#9	英文偏强
Gemini-3-Flash-Preview(high) Google	82.37	#4	13.5%	#11	英文偏强
DeepSeek-V4-Pro(max) 深度求索	80.68	#5	8.6%	#4	双榜对齐
Gemini-3.1-Pro-Preview(high) Google	80.50	#6	10.4%	#7	双榜对齐
Kimi-K2.5-Thinking 月之暗面	77.61	#7	14.2%	#12	英文偏强
DeepSeek-V3.2-Thinking 深度求索	77.23	#8	6.3%	#1	中文偏强
Qwen3.5-122B-A10B-Thinking 阿里巴巴	70.50	#9	11.2%	#8	双榜对齐
MiniMax-M2.5 稀宇科技	67.41	#10	9.1%	#5	中文偏强
Llama-4-Maverick-17B-128E-Instruct Meta	66.74	#11	8.2%	#3	中文偏强
MiniMax-M2.7 稀宇科技	55.61	#12	12.9%	#10	双榜对齐
gpt-oss-120b(high) OpenAI	54.88	#13	14.2%	#13	双榜对齐
Mistral Large 3 Mistral AI	51.67	#14	14.5%	#14	双榜对齐

中文偏强代表：GLM-5、Claude Opus 4.6、Gemini 3 Flash Preview、Kimi K2.5-Thinking。 GLM-5 中文第 1、英文第 6；Claude 中文第 3、英文第 9；Gemini 3 Flash 中文第 4、英文第 11；Kimi K2.5 中文第 7、英文第 12。这些模型在中文事实问答里表现优秀，但放到英文摘要任务里就显出短板—— 要么是中文训练数据密度高、英文相对薄，要么是中文场景的对齐目标和英文摘要场景不一致。

英文偏强代表：DeepSeek V3.2-Thinking、Llama-4 Maverick。 DeepSeek V3.2 英文第 1（HR 6.3%）但中文只到第 8；Llama-4 Maverick 英文第 3（HR 8.2%）但中文倒数第 4。这两个模型都偏"按原文办事"的风格，英文摘要任务里很稳，但中文事实问答需要的"常识 + 文化语境" 覆盖不够，反而吃亏。

双榜都强：GPT-5.4、DeepSeek V4 Pro、Gemini 3.1 Pro。 GPT-5.4 中文 #2、英文 #2，对称表现最好。DeepSeek V4 Pro 中文 #5、英文 #4，作为开源旗舰这个成绩很硬。 双榜都差：MiniMax M2.7、Mistral Large 3、GPT-OSS 120b。 M2.7 是 MiniMax 最新一代，幻觉控制反而比 M2.5 退步；GPT-OSS 是 OpenAI 开源版的"减配"产物。

幻觉性价比：（100 - 幻觉率）/ 输出价

用"事实一致性百分比 ÷ 每百万 token 输出价格"算出每花一美元能换到多少"诚实度"。只保留答题率 ≥ 80% 的模型（避免拒答率高带来的失真）。单位是"事实一致性百分点 / USD per M tokens"，数值越大代表"低幻觉 × 便宜"组合越强。

#	模型	幻觉率	输出价	诚实/$
1	grok-4-1-fast-non-reasoning xai-org	17.8%	$0.50	164.4
2	grok-4-1-fast-reasoning xai-org	19.2%	$0.50	161.6
3	grok-4-fast-non-reasoning xai-org	19.7%	$0.50	160.6
4	grok-4-fast-reasoning xai-org	20.2%	$0.50	159.6
5	Llama-4-Maverick-17B-128E-Instruct-FP8 meta-llama	8.2%	$0.60	153.0
6	DeepSeek-V3.2-Exp deepseek-ai	5.3%	$0.87	108.9
7	DeepSeek-V3.1 deepseek-ai	5.5%	$0.87	108.6
8	DeepSeek-V3 deepseek-ai	6.1%	$0.87	107.9
9	DeepSeek-V3.2 deepseek-ai	6.3%	$0.87	107.7
10	DeepSeek-V4-Pro deepseek-ai	8.6%	$0.87	105.1
11	DeepSeek-R1 deepseek-ai	11.3%	$0.87	102.0
12	Kimi-K2-Instruct-0905 moonshotai	17.9%	$2.30	35.7

DeepSeek V4 Flash 类型的轻量国内模型在诚实性价比上断档领先。 表里前几名基本是 Nano / Mini / Flash 这类轻量档：低幻觉 + 低价格的组合，做大批量 RAG、文档摘要、客服知识库时是务实选择。做"准、便宜、能跑大量"的事情，旗舰反而是错配——价格贵 10 倍、幻觉率还更高。

输出价 ≥ $10/M 的模型几乎都不会出现在性价比榜上。 Claude Opus 4.7（$25/M）、GPT-5.5（$30/M）、GPT-5.5 Pro（$180/M）即使幻觉率 9-12%，除以价格后比 Nano 系列差一个数量级。这进一步证明"做摘要任务，旗舰是过度配置"。

场景

英文 RAG / 文档摘要

输入是英文长文档（合同、论文、报告），要求摘要必须严格贴原文。首选 GPT-5.4 Nano（HR 3.1%，$1.25/M 输出）—— 幻觉率全场第二低、价格只有旗舰的 1/24。次选 Gemini 2.5 Flash Lite（HR 3.3%）—— 如果你已在 Google Cloud 上，无需切换平台。

场景

中文知识库 / 客服问答

内容是中文政策、产品文档、行业知识，错答的法律和体验代价都很高。首选 GLM-5（SuperCLUE 幻觉控制 86.85 第一）—— 中文事实问答最稳，国内厂商合规友好。次选 DeepSeek V4 Pro（SC 80.68 + Vectara 8.6%），双榜都强，开源可私有化部署。

场景

医疗 / 法律 / 金融"错不起"场景

一句话错了就可能造成医疗事故、合规处罚、资金损失。首选 领域专项模型，如蚂蚁 finix（HR 1.8%，但 API 仅企业接入）。通用模型里选 GPT-5.4 Nano 或 DeepSeek V3.2（HR 5.3%）。 无论选哪个，必须人工复核+引用回溯+不可让 LLM 当最终决策者。

场景

Agent 工具调用 / 长链推理

Agent 多步任务里每一步都可能幻觉，错误会沿调用链累积。首选 GPT-5.4（V_HR 7.0% + AA Agentic 70+）—— 非 thinking 版本在长链里反而比 reasoning 版更稳。避坑 o3-pro 23.3%、Grok 4 系列 17-20%，这些 reasoning 模型做工具调用时容易"自己脑补参数"。

场景

大批量文档处理 / 成本敏感

每天处理几万到几百万篇文档，对单次调用准确率有合理预期（允许 5-7% 错误），但成本敏感。首选 qwen3-8b（HR 4.8%）或 DeepSeek V4 Flash（$0.25/M 输出，中文 RAG 表现稳）。避坑：不要用 Claude Sonnet / Opus 跑批量摘要——HR 10-12% 不算特别好，价格还贵 5-50 倍。批量任务里旗舰模型是最差选择，记住这一条就够了。

看完榜单，这些坑别踩

1. 幻觉率 ≠ 错误率

Vectara HHEM 测的是"摘要里有多少信息原文没说过"，不是"答案对不对"。一个模型可能完全没编造内容、但漏掉了关键事实——这种"省略型错误"不算幻觉但同样有害。 SuperCLUE 幻觉控制测的是中文问答里的"是否编造"，也不覆盖"省略错误"。做严肃业务时要同时校验"该说的有没有说"。

2. 答题率 < 90% 的模型不能直接横向比

Phi-4 幻觉率 3.7% 看起来很低，但它答题率只有 80.7%—— 它直接拒答了近五分之一的题。"我不会"的题不计入幻觉率，导致看起来"很准"。类似的有 Snowflake Arctic（62.7% 答题率）、gemma-3-4b（67.3%）。看榜要把"幻觉率"和"答题率"配套看，两个都达标才算稳。

3. Reasoning 模型在 RAG 场景不一定更好

o3-pro 23.3%、o4-mini-high 18.6%、Grok-4-fast-reasoning 20.2%、GPT-5-high 15.1%—— 这些"会思考"的模型在严格按原文摘要的任务里反而幻觉更多。原因：thinking 过程会"补全推理空白"，结果加入了原文没有的"合理猜测"。做 RAG / 文档摘要时，默认关闭 thinking、用低温度（0 或 0.1）。

4. Claude 的"安全对齐"不等于"事实准确"

Anthropic 一直强调安全性和有用性，但 Vectara HHEM 上 Claude 全系列 HR 都在 10%-12%，比 GPT-5.4 / DeepSeek / Gemini Flash 都差。原因可能是 Claude 倾向"用自然语言重述"而不是"逐字摘要"，这种风格让答案更易读，但也更容易在重述时加入未在原文出现的解释。做严格摘要任务时，Claude 不是最优选——尽管它在创作、编程上很强。

5. 中文场景必须用中文榜单，不能拿英文榜单类推

双榜交叉表里 GLM-5、Kimi K2.5、Claude 都是典型"中英文表现不一致"案例。做中文 RAG 时用 SuperCLUE，做英文 RAG 时用 Vectara，做跨语言场景（如中文问题查英文文档）必须自己做小样本测试，没有任何公开榜单覆盖这个场景。

数据方法论

Vectara HHEM-2.3：github.com/vectara/hallucination-leaderboard，May 11, 2026 数据，2026-05-14 抓取。 7700+ 篇文档（新闻、科技、医疗、法律、商业、教育、体育等），短到 50 字、长到 24K 字，HHEM-2.3 评估事实一致性。温度=0。数据集不公开（防训练污染），单位是百分比。
SuperCLUE 幻觉控制：superclueai.com，2026年3月数据，2026-05-12 抓取。中文场景事实问答、常识判断、多轮对话事实一致性等综合评测。得分越高代表越不容易胡说。
价格数据：openrouter.ai/api/v1/models，2026-05-14 抓取。单位 USD/百万 token。
AA Intelligence Index：artificialanalysis.ai，2026-05-12 抓取。纯文本推理基准，与幻觉无直接关联，仅做能力相关性参考。
交叉映射规则：SuperCLUE 模型名手工对齐 Vectara model id，避免命名差异错配。未能映射的模型在交叉表里不出现，避免误导。
未做综合分：两份榜单测试语言、任务形式、量纲完全不同，强行加权汇总会产生误导。本页保持双榜独立展示，让读者自己判断。