LLM 幻觉率排行:哪个大模型说瞎话最少
AI 说瞎话是所有用户都躲不掉的坑。本页并列展示两份独立榜单: Vectara HHEM-2.3 摘要幻觉评测(让模型对 7700+ 篇英文文档做摘要,检测事实一致性)和 SuperCLUE 幻觉控制(中文场景问答幻觉评测)。 两者测试语言、任务形式完全不同,排名差异本身就是最值得看的信息。
最准的不是旗舰,是小模型和领域模型。 Vectara HHEM 前 5 名里:蚂蚁的 finix_s1_32b 幻觉率 1.8% 全球第一(金融领域专项调优), GPT-5.4 Nano(3.1%)、Gemini 2.5 Flash Lite(3.3%)、Phi-4(3.7%)、Llama-3.3-70B(4.1%)。 旗舰模型反而靠后:GPT-5.5 9.3%、Claude Opus 4.7 12.0%、Gemini 3.1 Pro Preview 10.4%。 原因不复杂——小模型不会"自作主张补全空白",反而更老老实实贴着原文。
"Thinking / Reasoning"模式不一定降低幻觉,有时反而升高。 OpenAI 的 o3-pro 幻觉率 23.3%(倒数第 4)、o4-mini-high 18.6%、Grok-4-fast-reasoning 20.2%。 模型边推理边"补全"自己的逻辑空白,结果离原文越来越远。 如果你做 RAG 或事实校验,非 thinking 版本可能比 thinking 版本更可靠。
国内模型在 Vectara 上的整体表现优于 Claude 全系列。 DeepSeek V4 Pro 8.6%、MiniMax M2.5 9.1%、GLM-4.6 9.5%、GLM-5 10.1%、Kimi K2.6 10.8%。 而 Claude Opus 4.5/4.6/4.7 都在 10.9%-12.2% 之间,Claude Sonnet 4.6 也有 10.6%。 Anthropic 的"安全对齐"看起来没让 Claude 在摘要任务里更诚实—— 反而是国内开源旗舰在 RAG 场景下值得认真考虑。
中文幻觉控制和英文摘要幻觉是两件事。 GLM-5 在 SuperCLUE 幻觉控制以 86.85 排第一,但 Vectara HHEM 上幻觉率 10.1% 只排第 6。 Claude Opus 4.6 SuperCLUE 第 3(82.95),Vectara 第 9(12.2%)。 Kimi K2.5 中文场景表现良好(77.61 第 7),但英文摘要幻觉高达 14.2%(倒数第 3)。 选模型不能只看一份榜单——中文 RAG 用 SuperCLUE 参考,英文摘要用 Vectara 参考, 跨语言场景需要交叉验证。
Vectara HHEM-2.3 · Top 25 幻觉率最低
来源:github.com/vectara/hallucination-leaderboard, May 11, 2026 更新,2026-05-14 抓取。 HHEM-2.3 给每个模型喂 7700+ 篇文档(新闻、科技、医疗、法律、商业等),让它做摘要, 然后机器评估摘要里多少信息是文档没说过的(即幻觉)。温度=0。 注意 Answer Rate 列——拒答率太低(如 Phi-4 80.7%、Snowflake 62.7%)会让幻觉率失真,需结合看。
| # | 模型 | 幻觉率 |
|---|---|---|
| 1 | finix_s1_32b antgroup | 1.8% |
| 2 | gpt-5.4-nano-2026-03-17 openai | 3.1% |
| 3 | gemini-2.5-flash-lite google | 3.3% |
| 4 | Phi-4 microsoft | 3.7% |
| 5 | Llama-3.3-70B-Instruct-Turbo meta-llama | 4.1% |
| 6 | snowflake-arctic-instruct snowflake | 4.3% |
| 7 | gemma-3-12b-it google | 4.4% |
| 8 | mistral-large-2411 mistralai | 4.5% |
| 9 | qwen3-8b qwen | 4.8% |
| 10 | nova-pro-v1:0 amazon | 5.1% |
| 11 | nova-2-lite-v1:0 amazon | 5.1% |
| 12 | mistral-small-2501 mistralai | 5.1% |
| 13 | granite-4.0-h-small ibm-granite | 5.2% |
| 14 | gemma-4-26b-a4b-it google | 5.2% |
| 15 | jamba-mini-2 ai21labs | 5.3% |
| 16 | DeepSeek-V3.2-Exp deepseek-ai | 5.3% |
| 17 | qwen3-14b qwen | 5.4% |
| 18 | nova-micro-v1:0 amazon | 5.5% |
| 19 | DeepSeek-V3.1 deepseek-ai | 5.5% |
| 20 | gpt-5.4-mini-2026-03-17 openai | 5.5% |
| 21 | gpt-4.1-2025-04-14 openai | 5.6% |
| 22 | qwen3-4b qwen | 5.7% |
| 23 | grok-3 xai-org | 5.8% |
| 24 | qwen3-32b qwen | 5.9% |
| 25 | nova-lite-v1:0 amazon | 6.1% |
antgroup/finix_s1_32b 第一是惊喜也不算惊喜。 蚂蚁集团的金融大模型 Finix,HR 1.8% 比第二名几乎低一半。 它是 32B 参数的领域模型,训练数据偏金融文本和合规摘要, 在 Vectara 这种"严格按原文摘要"的任务里有结构性优势。 但这不意味着它通用能力强——AA 智能没有数据,开放 API 也有限。
小模型集体屠榜。 GPT-5.4 Nano 3.1%(旗舰 GPT-5.5 的 1/3)、Gemini 2.5 Flash Lite 3.3%、 Llama-3.3-70B-Turbo 4.1%、qwen3-8b 4.8%。 这是个反直觉的事实——参数越小、模型越倾向"少说话",幻觉率反而越低。 做 RAG 摘要时,用 Nano 档可能比旗舰更划算,又便宜又准。
DeepSeek 全系列稳定在 5-9%。 V3.2 5.3%、V3.1 5.5%、V3 6.1%、V3.2-Exp 5.3%、V4 Pro 8.6%。 作为国内开源旗舰,DeepSeek 在英文摘要幻觉评测里和 OpenAI 主力模型基本同档, 甚至比 Claude 全系列都低。如果你的 RAG 场景跑在国内、又要可控成本,DeepSeek 是合理选择。
Gemini 系列内部差距很大。 Gemini 2.5 Flash Lite 3.3% 排第三,但 Gemini 3.1 Pro Preview 10.4% 排到第 60 左右, Gemini 3-Pro Preview 更是 13.6% 接近垫底。 Google 的"小"系列幻觉控制远好于"大"系列,这点和 OpenAI 类似但更极端。
SuperCLUE 幻觉控制 · 中文场景
来源:superclueai.com, 2026年3月榜,2026-05-12 抓取。SuperCLUE 的幻觉控制涵盖中文事实问答、常识判断、 多轮对话事实一致性等场景,得分越高代表幻觉越少。 注意 SuperCLUE 排名"-"或符号只代表是否参与排名,分数本身可独立比较。
| # | 模型 | 幻觉控制 | 国 |
|---|---|---|---|
| 1 | GLM-5 智谱AI | 86.85 | 🇨🇳 |
| 2 | GPT-5.4(xhigh) OpenAI | 85.43 | 🇺🇸 |
| 3 | Qwen3.5-397B-A17B-Thinking 阿里巴巴 | 84.39 | 🇨🇳 |
| 4 | Claude-Opus-4.6(max) Anthropic | 82.95 | 🇺🇸 |
| 5 | Gemini-3-Flash-Preview(high) Google | 82.37 | 🇺🇸 |
| 6 | DeepSeek-V4-Pro(max) 深度求索 | 80.68 | 🇨🇳 |
| 7 | Gemini-3.1-Pro-Preview(high) Google | 80.50 | 🇺🇸 |
| 8 | Doubao-Seed-2.0-pro-260215(high) 字节跳动 | 79.41 | 🇨🇳 |
| 9 | Grok-4.20-Beta-0309(Reasoning) X.AI | 77.89 | 🇺🇸 |
| 10 | Kimi-K2.5-Thinking 月之暗面 | 77.61 | 🇨🇳 |
| 11 | DeepSeek-V3.2-Thinking 深度求索 | 77.23 | 🇨🇳 |
| 12 | Tencent HY 2.0 Think 腾讯 | 76.46 | 🇨🇳 |
| 13 | DeepSeek-V4-Flash(max) 深度求索 | 75.67 | 🇨🇳 |
| 14 | MiMo-V2-Pro 小米集团 | 73.80 | 🇨🇳 |
| 15 | Qwen3.5-122B-A10B-Thinking 阿里巴巴 | 70.50 | 🇨🇳 |
| 16 | MiniMax-M2.5 稀宇科技 | 67.41 | 🇨🇳 |
| 17 | Llama-4-Maverick-17B-128E-Instruct Meta | 66.74 | 🇺🇸 |
| 18 | LongCat-Flash-Thinking-2601 美团 | 66.31 | 🇨🇳 |
GLM-5(智谱)以 86.85 拿下中文幻觉控制第一。 比 GPT-5.4(xhigh)85.43 高 1.42 分。 这和 SuperCLUE 整体榜上 GLM-5 排第 6 形成反差—— 它的总分不是最高,但在"不胡说"这个维度上做到了极致。 智谱在事实校验类任务上调优做得很深,做严肃问答、政府查询、医疗知识库时值得优先考虑。
国内厂商在中文幻觉控制上整体优于国际厂商。 前 6 名中 4 个是国内模型(GLM-5、Qwen3.5-397B-Thinking、DeepSeek V4 Pro、字节豆包 Seed 2.0), 只有 GPT-5.4 和 Gemini-3-Flash-Preview 两个国际模型进入前 6。 中文事实问答的训练语料对国内模型天然友好—— 国际模型即使中文表达流畅,对中文事实(人名、地名、政策、机构)的覆盖密度不如国内厂商。
"Thinking"对中文幻觉控制是双刃剑。 榜单上 Qwen3.5-397B-A17B-Thinking 84.39(#3)、Kimi K2.5-Thinking 77.61(#10)、 DeepSeek V3.2-Thinking 77.23(#11)都表现不错; 但 LongCat-Flash-Thinking 只有 66.31、MiMo-V2-Pro 73.80。 关键是模型的 thinking 是不是"真在校验"还是"在自圆其说"——后者会放大幻觉。
双榜交叉:14 个能映射的模型
下面 14 个模型同时出现在 SuperCLUE 幻觉控制榜和 Vectara HHEM 榜里(手工对齐版本号,避免命名差异导致的错配)。 "中文偏强 / 英文偏强 / 双榜对齐"标签反映的是两份榜单的相对排名差异—— 一个模型如果中文幻觉控制名次远好于英文摘要幻觉名次(差 ≥ 3 位),标"中文偏强",反之亦然。
| 模型 | SC 控制 | SC 排 | V 幻觉率 | V 排 | 标签 |
|---|---|---|---|---|---|
| GLM-5 智谱AI | 86.85 | #1 | 10.1% | #6 | 英文偏强 |
| GPT-5.4(xhigh) OpenAI | 85.43 | #2 | 7% | #2 | 双榜对齐 |
| Claude-Opus-4.6(max) Anthropic | 82.95 | #3 | 12.2% | #9 | 英文偏强 |
| Gemini-3-Flash-Preview(high) Google | 82.37 | #4 | 13.5% | #11 | 英文偏强 |
| DeepSeek-V4-Pro(max) 深度求索 | 80.68 | #5 | 8.6% | #4 | 双榜对齐 |
| Gemini-3.1-Pro-Preview(high) Google | 80.50 | #6 | 10.4% | #7 | 双榜对齐 |
| Kimi-K2.5-Thinking 月之暗面 | 77.61 | #7 | 14.2% | #12 | 英文偏强 |
| DeepSeek-V3.2-Thinking 深度求索 | 77.23 | #8 | 6.3% | #1 | 中文偏强 |
| Qwen3.5-122B-A10B-Thinking 阿里巴巴 | 70.50 | #9 | 11.2% | #8 | 双榜对齐 |
| MiniMax-M2.5 稀宇科技 | 67.41 | #10 | 9.1% | #5 | 中文偏强 |
| Llama-4-Maverick-17B-128E-Instruct Meta | 66.74 | #11 | 8.2% | #3 | 中文偏强 |
| MiniMax-M2.7 稀宇科技 | 55.61 | #12 | 12.9% | #10 | 双榜对齐 |
| gpt-oss-120b(high) OpenAI | 54.88 | #13 | 14.2% | #13 | 双榜对齐 |
| Mistral Large 3 Mistral AI | 51.67 | #14 | 14.5% | #14 | 双榜对齐 |
中文偏强代表:GLM-5、Claude Opus 4.6、Gemini 3 Flash Preview、Kimi K2.5-Thinking。 GLM-5 中文第 1、英文第 6;Claude 中文第 3、英文第 9;Gemini 3 Flash 中文第 4、英文第 11;Kimi K2.5 中文第 7、英文第 12。 这些模型在中文事实问答里表现优秀,但放到英文摘要任务里就显出短板—— 要么是中文训练数据密度高、英文相对薄,要么是中文场景的对齐目标和英文摘要场景不一致。
英文偏强代表:DeepSeek V3.2-Thinking、Llama-4 Maverick。 DeepSeek V3.2 英文第 1(HR 6.3%)但中文只到第 8;Llama-4 Maverick 英文第 3(HR 8.2%)但中文倒数第 4。 这两个模型都偏"按原文办事"的风格,英文摘要任务里很稳,但中文事实问答需要的"常识 + 文化语境" 覆盖不够,反而吃亏。
双榜都强:GPT-5.4、DeepSeek V4 Pro、Gemini 3.1 Pro。 GPT-5.4 中文 #2、英文 #2,对称表现最好。DeepSeek V4 Pro 中文 #5、英文 #4, 作为开源旗舰这个成绩很硬。 双榜都差:MiniMax M2.7、Mistral Large 3、GPT-OSS 120b。 M2.7 是 MiniMax 最新一代,幻觉控制反而比 M2.5 退步;GPT-OSS 是 OpenAI 开源版的"减配"产物。
幻觉性价比:(100 - 幻觉率)/ 输出价
用"事实一致性百分比 ÷ 每百万 token 输出价格"算出每花一美元能换到多少"诚实度"。 只保留答题率 ≥ 80% 的模型(避免拒答率高带来的失真)。 单位是"事实一致性百分点 / USD per M tokens",数值越大代表"低幻觉 × 便宜"组合越强。
| # | 模型 | 幻觉率 | 输出价 | 诚实/$ |
|---|---|---|---|---|
| 1 | grok-4-1-fast-non-reasoning xai-org | 17.8% | $0.50 | 164.4 |
| 2 | grok-4-1-fast-reasoning xai-org | 19.2% | $0.50 | 161.6 |
| 3 | grok-4-fast-non-reasoning xai-org | 19.7% | $0.50 | 160.6 |
| 4 | grok-4-fast-reasoning xai-org | 20.2% | $0.50 | 159.6 |
| 5 | Llama-4-Maverick-17B-128E-Instruct-FP8 meta-llama | 8.2% | $0.60 | 153.0 |
| 6 | DeepSeek-V3.2-Exp deepseek-ai | 5.3% | $0.87 | 108.9 |
| 7 | DeepSeek-V3.1 deepseek-ai | 5.5% | $0.87 | 108.6 |
| 8 | DeepSeek-V3 deepseek-ai | 6.1% | $0.87 | 107.9 |
| 9 | DeepSeek-V3.2 deepseek-ai | 6.3% | $0.87 | 107.7 |
| 10 | DeepSeek-V4-Pro deepseek-ai | 8.6% | $0.87 | 105.1 |
| 11 | DeepSeek-R1 deepseek-ai | 11.3% | $0.87 | 102.0 |
| 12 | Kimi-K2-Instruct-0905 moonshotai | 17.9% | $2.30 | 35.7 |
DeepSeek V4 Flash 类型的轻量国内模型在诚实性价比上断档领先。 表里前几名基本是 Nano / Mini / Flash 这类轻量档:低幻觉 + 低价格的组合, 做大批量 RAG、文档摘要、客服知识库时是务实选择。 做"准、便宜、能跑大量"的事情,旗舰反而是错配——价格贵 10 倍、幻觉率还更高。
输出价 ≥ $10/M 的模型几乎都不会出现在性价比榜上。 Claude Opus 4.7($25/M)、GPT-5.5($30/M)、GPT-5.5 Pro($180/M)即使幻觉率 9-12%, 除以价格后比 Nano 系列差一个数量级。 这进一步证明"做摘要任务,旗舰是过度配置"。
按场景选:5 个反幻觉组合
看完榜单,这些坑别踩
1. 幻觉率 ≠ 错误率
Vectara HHEM 测的是"摘要里有多少信息原文没说过", 不是"答案对不对"。一个模型可能完全没编造内容、但漏掉了关键事实——这种"省略型错误"不算幻觉但同样有害。 SuperCLUE 幻觉控制测的是中文问答里的"是否编造",也不覆盖"省略错误"。 做严肃业务时要同时校验"该说的有没有说"。
2. 答题率 < 90% 的模型不能直接横向比
Phi-4 幻觉率 3.7% 看起来很低,但它答题率只有 80.7%—— 它直接拒答了近五分之一的题。"我不会"的题不计入幻觉率,导致看起来"很准"。 类似的有 Snowflake Arctic(62.7% 答题率)、gemma-3-4b(67.3%)。 看榜要把"幻觉率"和"答题率"配套看,两个都达标才算稳。
3. Reasoning 模型在 RAG 场景不一定更好
o3-pro 23.3%、o4-mini-high 18.6%、Grok-4-fast-reasoning 20.2%、GPT-5-high 15.1%—— 这些"会思考"的模型在严格按原文摘要的任务里反而幻觉更多。 原因:thinking 过程会"补全推理空白",结果加入了原文没有的"合理猜测"。 做 RAG / 文档摘要时,默认关闭 thinking、用低温度(0 或 0.1)。
4. Claude 的"安全对齐"不等于"事实准确"
Anthropic 一直强调安全性和有用性,但 Vectara HHEM 上 Claude 全系列 HR 都在 10%-12%, 比 GPT-5.4 / DeepSeek / Gemini Flash 都差。 原因可能是 Claude 倾向"用自然语言重述"而不是"逐字摘要", 这种风格让答案更易读,但也更容易在重述时加入未在原文出现的解释。 做严格摘要任务时,Claude 不是最优选——尽管它在创作、编程上很强。
5. 中文场景必须用中文榜单,不能拿英文榜单类推
双榜交叉表里 GLM-5、Kimi K2.5、Claude 都是典型"中英文表现不一致"案例。 做中文 RAG 时用 SuperCLUE,做英文 RAG 时用 Vectara, 做跨语言场景(如中文问题查英文文档)必须自己做小样本测试, 没有任何公开榜单覆盖这个场景。
数据方法论
- Vectara HHEM-2.3:github.com/vectara/hallucination-leaderboard,May 11, 2026 数据,2026-05-14 抓取。 7700+ 篇文档(新闻、科技、医疗、法律、商业、教育、体育等), 短到 50 字、长到 24K 字,HHEM-2.3 评估事实一致性。温度=0。 数据集不公开(防训练污染),单位是百分比。
- SuperCLUE 幻觉控制:superclueai.com,2026年3月数据,2026-05-12 抓取。 中文场景事实问答、常识判断、多轮对话事实一致性等综合评测。 得分越高代表越不容易胡说。
- 价格数据:openrouter.ai/api/v1/models,2026-05-14 抓取。 单位 USD/百万 token。
- AA Intelligence Index:artificialanalysis.ai,2026-05-12 抓取。 纯文本推理基准,与幻觉无直接关联,仅做能力相关性参考。
- 交叉映射规则:SuperCLUE 模型名手工对齐 Vectara model id,避免命名差异错配。 未能映射的模型在交叉表里不出现,避免误导。
- 未做综合分:两份榜单测试语言、任务形式、量纲完全不同, 强行加权汇总会产生误导。本页保持双榜独立展示,让读者自己判断。