2026-05-14 / 2026-05-12 · 排行榜 · 幻觉控制专项

LLM 幻觉率排行:哪个大模型说瞎话最少

AI 说瞎话是所有用户都躲不掉的坑。本页并列展示两份独立榜单: Vectara HHEM-2.3 摘要幻觉评测(让模型对 7700+ 篇英文文档做摘要,检测事实一致性)和 SuperCLUE 幻觉控制(中文场景问答幻觉评测)。 两者测试语言、任务形式完全不同,排名差异本身就是最值得看的信息。

最准的不是旗舰,是小模型和领域模型。 Vectara HHEM 前 5 名里:蚂蚁的 finix_s1_32b 幻觉率 1.8% 全球第一(金融领域专项调优), GPT-5.4 Nano(3.1%)、Gemini 2.5 Flash Lite(3.3%)、Phi-4(3.7%)、Llama-3.3-70B(4.1%)。 旗舰模型反而靠后:GPT-5.5 9.3%、Claude Opus 4.7 12.0%、Gemini 3.1 Pro Preview 10.4%。 原因不复杂——小模型不会"自作主张补全空白",反而更老老实实贴着原文。

"Thinking / Reasoning"模式不一定降低幻觉,有时反而升高。 OpenAI 的 o3-pro 幻觉率 23.3%(倒数第 4)、o4-mini-high 18.6%、Grok-4-fast-reasoning 20.2%。 模型边推理边"补全"自己的逻辑空白,结果离原文越来越远。 如果你做 RAG 或事实校验,非 thinking 版本可能比 thinking 版本更可靠

国内模型在 Vectara 上的整体表现优于 Claude 全系列。 DeepSeek V4 Pro 8.6%、MiniMax M2.5 9.1%、GLM-4.6 9.5%、GLM-5 10.1%、Kimi K2.6 10.8%。 而 Claude Opus 4.5/4.6/4.7 都在 10.9%-12.2% 之间,Claude Sonnet 4.6 也有 10.6%。 Anthropic 的"安全对齐"看起来没让 Claude 在摘要任务里更诚实—— 反而是国内开源旗舰在 RAG 场景下值得认真考虑。

中文幻觉控制和英文摘要幻觉是两件事。 GLM-5 在 SuperCLUE 幻觉控制以 86.85 排第一,但 Vectara HHEM 上幻觉率 10.1% 只排第 6。 Claude Opus 4.6 SuperCLUE 第 3(82.95),Vectara 第 9(12.2%)。 Kimi K2.5 中文场景表现良好(77.61 第 7),但英文摘要幻觉高达 14.2%(倒数第 3)。 选模型不能只看一份榜单——中文 RAG 用 SuperCLUE 参考,英文摘要用 Vectara 参考, 跨语言场景需要交叉验证。

Vectara HHEM-2.3 · Top 25 幻觉率最低

来源:github.com/vectara/hallucination-leaderboard, May 11, 2026 更新,2026-05-14 抓取。 HHEM-2.3 给每个模型喂 7700+ 篇文档(新闻、科技、医疗、法律、商业等),让它做摘要, 然后机器评估摘要里多少信息是文档没说过的(即幻觉)。温度=0。 注意 Answer Rate 列——拒答率太低(如 Phi-4 80.7%、Snowflake 62.7%)会让幻觉率失真,需结合看。

# 模型 幻觉率
1 finix_s1_32b
antgroup
1.8%
2 gpt-5.4-nano-2026-03-17
openai
3.1%
3 gemini-2.5-flash-lite
google
3.3%
4 Phi-4
microsoft
3.7%
5 Llama-3.3-70B-Instruct-Turbo
meta-llama
4.1%
6 snowflake-arctic-instruct
snowflake
4.3%
7 gemma-3-12b-it
google
4.4%
8 mistral-large-2411
mistralai
4.5%
9 qwen3-8b
qwen
4.8%
10 nova-pro-v1:0
amazon
5.1%
11 nova-2-lite-v1:0
amazon
5.1%
12 mistral-small-2501
mistralai
5.1%
13 granite-4.0-h-small
ibm-granite
5.2%
14 gemma-4-26b-a4b-it
google
5.2%
15 jamba-mini-2
ai21labs
5.3%
16 DeepSeek-V3.2-Exp
deepseek-ai
5.3%
17 qwen3-14b
qwen
5.4%
18 nova-micro-v1:0
amazon
5.5%
19 DeepSeek-V3.1
deepseek-ai
5.5%
20 gpt-5.4-mini-2026-03-17
openai
5.5%
21 gpt-4.1-2025-04-14
openai
5.6%
22 qwen3-4b
qwen
5.7%
23 grok-3
xai-org
5.8%
24 qwen3-32b
qwen
5.9%
25 nova-lite-v1:0
amazon
6.1%

antgroup/finix_s1_32b 第一是惊喜也不算惊喜。 蚂蚁集团的金融大模型 Finix,HR 1.8% 比第二名几乎低一半。 它是 32B 参数的领域模型,训练数据偏金融文本和合规摘要, 在 Vectara 这种"严格按原文摘要"的任务里有结构性优势。 但这不意味着它通用能力强——AA 智能没有数据,开放 API 也有限。

小模型集体屠榜。 GPT-5.4 Nano 3.1%(旗舰 GPT-5.5 的 1/3)、Gemini 2.5 Flash Lite 3.3%、 Llama-3.3-70B-Turbo 4.1%、qwen3-8b 4.8%。 这是个反直觉的事实——参数越小、模型越倾向"少说话",幻觉率反而越低。 做 RAG 摘要时,用 Nano 档可能比旗舰更划算,又便宜又准。

DeepSeek 全系列稳定在 5-9%。 V3.2 5.3%、V3.1 5.5%、V3 6.1%、V3.2-Exp 5.3%、V4 Pro 8.6%。 作为国内开源旗舰,DeepSeek 在英文摘要幻觉评测里和 OpenAI 主力模型基本同档, 甚至比 Claude 全系列都低。如果你的 RAG 场景跑在国内、又要可控成本,DeepSeek 是合理选择。

Gemini 系列内部差距很大。 Gemini 2.5 Flash Lite 3.3% 排第三,但 Gemini 3.1 Pro Preview 10.4% 排到第 60 左右, Gemini 3-Pro Preview 更是 13.6% 接近垫底。 Google 的"小"系列幻觉控制远好于"大"系列,这点和 OpenAI 类似但更极端。

SuperCLUE 幻觉控制 · 中文场景

来源:superclueai.com, 2026年3月榜,2026-05-12 抓取。SuperCLUE 的幻觉控制涵盖中文事实问答、常识判断、 多轮对话事实一致性等场景,得分越高代表幻觉越少。 注意 SuperCLUE 排名"-"或符号只代表是否参与排名,分数本身可独立比较。

# 模型 幻觉控制
1 GLM-5
智谱AI
86.85 🇨🇳
2 GPT-5.4(xhigh)
OpenAI
85.43 🇺🇸
3 Qwen3.5-397B-A17B-Thinking
阿里巴巴
84.39 🇨🇳
4 Claude-Opus-4.6(max)
Anthropic
82.95 🇺🇸
5 Gemini-3-Flash-Preview(high)
Google
82.37 🇺🇸
6 DeepSeek-V4-Pro(max)
深度求索
80.68 🇨🇳
7 Gemini-3.1-Pro-Preview(high)
Google
80.50 🇺🇸
8 Doubao-Seed-2.0-pro-260215(high)
字节跳动
79.41 🇨🇳
9 Grok-4.20-Beta-0309(Reasoning)
X.AI
77.89 🇺🇸
10 Kimi-K2.5-Thinking
月之暗面
77.61 🇨🇳
11 DeepSeek-V3.2-Thinking
深度求索
77.23 🇨🇳
12 Tencent HY 2.0 Think
腾讯
76.46 🇨🇳
13 DeepSeek-V4-Flash(max)
深度求索
75.67 🇨🇳
14 MiMo-V2-Pro
小米集团
73.80 🇨🇳
15 Qwen3.5-122B-A10B-Thinking
阿里巴巴
70.50 🇨🇳
16 MiniMax-M2.5
稀宇科技
67.41 🇨🇳
17 Llama-4-Maverick-17B-128E-Instruct
Meta
66.74 🇺🇸
18 LongCat-Flash-Thinking-2601
美团
66.31 🇨🇳

GLM-5(智谱)以 86.85 拿下中文幻觉控制第一。 比 GPT-5.4(xhigh)85.43 高 1.42 分。 这和 SuperCLUE 整体榜上 GLM-5 排第 6 形成反差—— 它的总分不是最高,但在"不胡说"这个维度上做到了极致。 智谱在事实校验类任务上调优做得很深,做严肃问答、政府查询、医疗知识库时值得优先考虑。

国内厂商在中文幻觉控制上整体优于国际厂商。 前 6 名中 4 个是国内模型(GLM-5、Qwen3.5-397B-Thinking、DeepSeek V4 Pro、字节豆包 Seed 2.0), 只有 GPT-5.4 和 Gemini-3-Flash-Preview 两个国际模型进入前 6。 中文事实问答的训练语料对国内模型天然友好—— 国际模型即使中文表达流畅,对中文事实(人名、地名、政策、机构)的覆盖密度不如国内厂商。

"Thinking"对中文幻觉控制是双刃剑。 榜单上 Qwen3.5-397B-A17B-Thinking 84.39(#3)、Kimi K2.5-Thinking 77.61(#10)、 DeepSeek V3.2-Thinking 77.23(#11)都表现不错; 但 LongCat-Flash-Thinking 只有 66.31、MiMo-V2-Pro 73.80。 关键是模型的 thinking 是不是"真在校验"还是"在自圆其说"——后者会放大幻觉。

双榜交叉:14 个能映射的模型

下面 14 个模型同时出现在 SuperCLUE 幻觉控制榜和 Vectara HHEM 榜里(手工对齐版本号,避免命名差异导致的错配)。 "中文偏强 / 英文偏强 / 双榜对齐"标签反映的是两份榜单的相对排名差异—— 一个模型如果中文幻觉控制名次远好于英文摘要幻觉名次(差 ≥ 3 位),标"中文偏强",反之亦然。

模型 SC 控制 SC 排 V 幻觉率 V 排 标签
GLM-5
智谱AI
86.85 #1 10.1% #6 英文偏强
GPT-5.4(xhigh)
OpenAI
85.43 #2 7% #2 双榜对齐
Claude-Opus-4.6(max)
Anthropic
82.95 #3 12.2% #9 英文偏强
Gemini-3-Flash-Preview(high)
Google
82.37 #4 13.5% #11 英文偏强
DeepSeek-V4-Pro(max)
深度求索
80.68 #5 8.6% #4 双榜对齐
Gemini-3.1-Pro-Preview(high)
Google
80.50 #6 10.4% #7 双榜对齐
Kimi-K2.5-Thinking
月之暗面
77.61 #7 14.2% #12 英文偏强
DeepSeek-V3.2-Thinking
深度求索
77.23 #8 6.3% #1 中文偏强
Qwen3.5-122B-A10B-Thinking
阿里巴巴
70.50 #9 11.2% #8 双榜对齐
MiniMax-M2.5
稀宇科技
67.41 #10 9.1% #5 中文偏强
Llama-4-Maverick-17B-128E-Instruct
Meta
66.74 #11 8.2% #3 中文偏强
MiniMax-M2.7
稀宇科技
55.61 #12 12.9% #10 双榜对齐
gpt-oss-120b(high)
OpenAI
54.88 #13 14.2% #13 双榜对齐
Mistral Large 3
Mistral AI
51.67 #14 14.5% #14 双榜对齐

中文偏强代表:GLM-5、Claude Opus 4.6、Gemini 3 Flash Preview、Kimi K2.5-Thinking。 GLM-5 中文第 1、英文第 6;Claude 中文第 3、英文第 9;Gemini 3 Flash 中文第 4、英文第 11;Kimi K2.5 中文第 7、英文第 12。 这些模型在中文事实问答里表现优秀,但放到英文摘要任务里就显出短板—— 要么是中文训练数据密度高、英文相对薄,要么是中文场景的对齐目标和英文摘要场景不一致。

英文偏强代表:DeepSeek V3.2-Thinking、Llama-4 Maverick。 DeepSeek V3.2 英文第 1(HR 6.3%)但中文只到第 8;Llama-4 Maverick 英文第 3(HR 8.2%)但中文倒数第 4。 这两个模型都偏"按原文办事"的风格,英文摘要任务里很稳,但中文事实问答需要的"常识 + 文化语境" 覆盖不够,反而吃亏。

双榜都强:GPT-5.4、DeepSeek V4 Pro、Gemini 3.1 Pro。 GPT-5.4 中文 #2、英文 #2,对称表现最好。DeepSeek V4 Pro 中文 #5、英文 #4, 作为开源旗舰这个成绩很硬。 双榜都差:MiniMax M2.7、Mistral Large 3、GPT-OSS 120b。 M2.7 是 MiniMax 最新一代,幻觉控制反而比 M2.5 退步;GPT-OSS 是 OpenAI 开源版的"减配"产物。

幻觉性价比:(100 - 幻觉率)/ 输出价

用"事实一致性百分比 ÷ 每百万 token 输出价格"算出每花一美元能换到多少"诚实度"。 只保留答题率 ≥ 80% 的模型(避免拒答率高带来的失真)。 单位是"事实一致性百分点 / USD per M tokens",数值越大代表"低幻觉 × 便宜"组合越强。

# 模型 幻觉率 输出价 诚实/$
1 grok-4-1-fast-non-reasoning
xai-org
17.8% $0.50 164.4
2 grok-4-1-fast-reasoning
xai-org
19.2% $0.50 161.6
3 grok-4-fast-non-reasoning
xai-org
19.7% $0.50 160.6
4 grok-4-fast-reasoning
xai-org
20.2% $0.50 159.6
5 Llama-4-Maverick-17B-128E-Instruct-FP8
meta-llama
8.2% $0.60 153.0
6 DeepSeek-V3.2-Exp
deepseek-ai
5.3% $0.87 108.9
7 DeepSeek-V3.1
deepseek-ai
5.5% $0.87 108.6
8 DeepSeek-V3
deepseek-ai
6.1% $0.87 107.9
9 DeepSeek-V3.2
deepseek-ai
6.3% $0.87 107.7
10 DeepSeek-V4-Pro
deepseek-ai
8.6% $0.87 105.1
11 DeepSeek-R1
deepseek-ai
11.3% $0.87 102.0
12 Kimi-K2-Instruct-0905
moonshotai
17.9% $2.30 35.7

DeepSeek V4 Flash 类型的轻量国内模型在诚实性价比上断档领先。 表里前几名基本是 Nano / Mini / Flash 这类轻量档:低幻觉 + 低价格的组合, 做大批量 RAG、文档摘要、客服知识库时是务实选择。 做"准、便宜、能跑大量"的事情,旗舰反而是错配——价格贵 10 倍、幻觉率还更高。

输出价 ≥ $10/M 的模型几乎都不会出现在性价比榜上。 Claude Opus 4.7($25/M)、GPT-5.5($30/M)、GPT-5.5 Pro($180/M)即使幻觉率 9-12%, 除以价格后比 Nano 系列差一个数量级。 这进一步证明"做摘要任务,旗舰是过度配置"

按场景选:5 个反幻觉组合

场景
英文 RAG / 文档摘要
输入是英文长文档(合同、论文、报告),要求摘要必须严格贴原文。 首选 GPT-5.4 Nano(HR 3.1%,$1.25/M 输出)—— 幻觉率全场第二低、价格只有旗舰的 1/24。 次选 Gemini 2.5 Flash Lite(HR 3.3%)—— 如果你已在 Google Cloud 上,无需切换平台。
场景
中文知识库 / 客服问答
内容是中文政策、产品文档、行业知识,错答的法律和体验代价都很高。 首选 GLM-5(SuperCLUE 幻觉控制 86.85 第一)—— 中文事实问答最稳,国内厂商合规友好。 次选 DeepSeek V4 Pro(SC 80.68 + Vectara 8.6%), 双榜都强,开源可私有化部署。
场景
医疗 / 法律 / 金融"错不起"场景
一句话错了就可能造成医疗事故、合规处罚、资金损失。 首选 领域专项模型,如蚂蚁 finix(HR 1.8%,但 API 仅企业接入)。 通用模型里选 GPT-5.4 NanoDeepSeek V3.2(HR 5.3%)。 无论选哪个,必须人工复核+引用回溯+不可让 LLM 当最终决策者
场景
Agent 工具调用 / 长链推理
Agent 多步任务里每一步都可能幻觉,错误会沿调用链累积。 首选 GPT-5.4(V_HR 7.0% + AA Agentic 70+)—— 非 thinking 版本在长链里反而比 reasoning 版更稳。 避坑 o3-pro 23.3%、Grok 4 系列 17-20%, 这些 reasoning 模型做工具调用时容易"自己脑补参数"。
场景
大批量文档处理 / 成本敏感
每天处理几万到几百万篇文档,对单次调用准确率有合理预期(允许 5-7% 错误),但成本敏感。 首选 qwen3-8b(HR 4.8%)或 DeepSeek V4 Flash($0.25/M 输出,中文 RAG 表现稳)。 避坑:不要用 Claude Sonnet / Opus 跑批量摘要——HR 10-12% 不算特别好,价格还贵 5-50 倍。 批量任务里旗舰模型是最差选择,记住这一条就够了。

看完榜单,这些坑别踩

1. 幻觉率 ≠ 错误率

Vectara HHEM 测的是"摘要里有多少信息原文没说过", 不是"答案对不对"。一个模型可能完全没编造内容、但漏掉了关键事实——这种"省略型错误"不算幻觉但同样有害。 SuperCLUE 幻觉控制测的是中文问答里的"是否编造",也不覆盖"省略错误"。 做严肃业务时要同时校验"该说的有没有说"。

2. 答题率 < 90% 的模型不能直接横向比

Phi-4 幻觉率 3.7% 看起来很低,但它答题率只有 80.7%—— 它直接拒答了近五分之一的题。"我不会"的题不计入幻觉率,导致看起来"很准"。 类似的有 Snowflake Arctic(62.7% 答题率)、gemma-3-4b(67.3%)。 看榜要把"幻觉率"和"答题率"配套看,两个都达标才算稳。

3. Reasoning 模型在 RAG 场景不一定更好

o3-pro 23.3%、o4-mini-high 18.6%、Grok-4-fast-reasoning 20.2%、GPT-5-high 15.1%—— 这些"会思考"的模型在严格按原文摘要的任务里反而幻觉更多。 原因:thinking 过程会"补全推理空白",结果加入了原文没有的"合理猜测"。 做 RAG / 文档摘要时,默认关闭 thinking、用低温度(0 或 0.1)

4. Claude 的"安全对齐"不等于"事实准确"

Anthropic 一直强调安全性和有用性,但 Vectara HHEM 上 Claude 全系列 HR 都在 10%-12%, 比 GPT-5.4 / DeepSeek / Gemini Flash 都差。 原因可能是 Claude 倾向"用自然语言重述"而不是"逐字摘要", 这种风格让答案更易读,但也更容易在重述时加入未在原文出现的解释。 做严格摘要任务时,Claude 不是最优选——尽管它在创作、编程上很强。

5. 中文场景必须用中文榜单,不能拿英文榜单类推

双榜交叉表里 GLM-5、Kimi K2.5、Claude 都是典型"中英文表现不一致"案例。 做中文 RAG 时用 SuperCLUE,做英文 RAG 时用 Vectara, 做跨语言场景(如中文问题查英文文档)必须自己做小样本测试, 没有任何公开榜单覆盖这个场景。

数据方法论

  • Vectara HHEM-2.3:github.com/vectara/hallucination-leaderboard,May 11, 2026 数据,2026-05-14 抓取。 7700+ 篇文档(新闻、科技、医疗、法律、商业、教育、体育等), 短到 50 字、长到 24K 字,HHEM-2.3 评估事实一致性。温度=0。 数据集不公开(防训练污染),单位是百分比。
  • SuperCLUE 幻觉控制:superclueai.com,2026年3月数据,2026-05-12 抓取。 中文场景事实问答、常识判断、多轮对话事实一致性等综合评测。 得分越高代表越不容易胡说。
  • 价格数据:openrouter.ai/api/v1/models,2026-05-14 抓取。 单位 USD/百万 token。
  • AA Intelligence Index:artificialanalysis.ai,2026-05-12 抓取。 纯文本推理基准,与幻觉无直接关联,仅做能力相关性参考。
  • 交叉映射规则:SuperCLUE 模型名手工对齐 Vectara model id,避免命名差异错配。 未能映射的模型在交叉表里不出现,避免误导。
  • 未做综合分:两份榜单测试语言、任务形式、量纲完全不同, 强行加权汇总会产生误导。本页保持双榜独立展示,让读者自己判断。