2026-05-14 · 深度分析 · 推理模式对幻觉的影响

推理模式真的更准吗?同模型实测:开 reasoning 幻觉反而 +0.5%-2.4%

现在所有厂商都在推 reasoning 模式——OpenAI 的 effort 档位、xAI 的 reasoning/non-reasoning 双 API、Anthropic 的 extended thinking、Google 的 Deep Think。 宣传话术都是「推理让模型更准」。 Vectara HHEM-2.3(May 11, 2026)给了一个简单的反问:同一个模型把 reasoning effort 调高,幻觉率会怎么变? 答案在下面 6 组实测数据里。

推理 effort 开越大,幻觉越多。 6 组同模型对照里 5 组幻觉率上升,平均 +0.98%。 GPT-5.2 从 low 切 high 涨 +2.4%,Grok 4.1 Fast 切 reasoning 涨 +1.4%。 只有 o4-mini 内部 low/high 持平(18.6% vs 18.6%)——但绝对值已经是榜单倒数。

纯推理旗舰被同家族 Nano 反向吊打。 o3-pro 幻觉率 23.3% 是 GPT-5.4 Nano(3.1%)的 7.5 倍。 Grok-4-fast-reasoning 20.2% 是上代 Grok 3(5.8%)的 3.5 倍。 10 个纯推理模型平均 HR 15.8%,10 个非推理小模型平均 4.5%,差 3.5 倍。

不是「推理更糟」,是「在摘要 / RAG 任务上推理是负优化」。 HHEM 测的是「摘要不能脱离原文」,推理过程会主动「补全空白、推导隐含信息」——这刚好和「严格贴原文」的目标相反。 如果你做的是 RAG、文档摘要、客服问答、字幕翻译这种「事实必须来自上下文」的场景,关掉 reasoning 是对的。 如果做的是数学、代码、Agent 规划,推理仍然重要——本页第 7 节给完整场景表。

同一模型,切 effort 档位的幻觉变化

这是最干净的对照:同一个 base model,只切 reasoning effort,HHEM-2.3 同一套 7700+ 文档摘要测试。 数据来自 Vectara Hallucination Leaderboard(github,May 11, 2026 更新)。

模型家族 低 effort HR 高 effort HR Δ HR
GPT-5.2
OpenAI · low effort → high effort
8.4% 10.8% +2.4%
GPT-5.1
OpenAI · low effort → high effort
10.9% 12.1% +1.2%
GPT-5
OpenAI · minimal effort → high effort
14.7% 15.1% +0.4%
Grok 4.1 Fast
xAI · non-reasoning → reasoning
17.8% 19.2% +1.4%
Grok 4 Fast
xAI · non-reasoning → reasoning
19.7% 20.2% +0.5%
o4-mini
OpenAI · low effort → high effort
18.6% 18.6% 0%

5 / 6 组上涨,平均 +0.98%。 GPT-5.2 涨 2.4% 最猛,GPT-5.1 涨 1.2%,Grok 4.1 Fast 涨 1.4%,Grok 4 Fast 涨 0.5%,GPT-5 涨 0.4%; 只有 o4-mini 在 18.6% 上持平——但它本身已经是榜单倒数第二,没有改善空间。 GPT-5 这条样本 effort 跨度大(minimal → high)但 HR 涨幅小,因为 GPT-5 是 2025-08 老模型基线本身就偏高,不像 GPT-5.1/5.2 在 low 档已经下探到 8-11% 区间。

摘要长度同时也在涨,幅度比 HR 还猛。 GPT-5.2 摘要长度从 126.5 涨到 186.3(+47%),GPT-5.1 从 165.5 涨到 254.4(+54%)。 推理模式让模型「多想多写」——多写的那些字,刚好就是 HHEM 判定为「文档没说过」的部分。 这是后面机制分析的核心证据:推理不是「想清楚再说」,而是「想出来再补到答案里」。

旗舰推理模型 vs 同家族小模型

上一节是「同模型切 effort」,这一节是「同厂商旗舰 vs Nano / Flash / Lite」。 旗舰模型基本都默认开 reasoning(或者就是纯推理产品如 o3-pro / R1),Nano 档则普遍是纯生成式。 反差比 effort 切换更夸张——倍数级别。

厂商 旗舰 / 推理 HR 倍数
OpenAI
o3-pro
纯推理旗舰
23.3% 7.52×
OpenAI
GPT-5.5
当前 OpenAI 主力
9.3%
xAI
Grok 4 Fast (reasoning)
开了 reasoning
20.2% 3.48×
Google
Gemini 3.1 Pro Preview
当代 Pro 旗舰
10.4% 3.15×
Anthropic
Claude Opus 4.7
当代旗舰
12% 1.22×
DeepSeek
DeepSeek R1
专项推理
11.3% 2.05×

o3-pro vs GPT-5.4 Nano = 7.5 倍差。 o3-pro 是 OpenAI 当代纯推理旗舰,定位是「最聪明、最贵」,HR 却是 23.3%(全榜倒数第 4); GPT-5.4 Nano 是 OpenAI 主力 Nano,定位「便宜、快」,HR 只有 3.1%(全榜第 2)。 做 RAG 摘要你买 o3-pro,幻觉是 Nano 的 7.5 倍,价格高 30+ 倍——双重亏损。

Grok 4 Fast reasoning vs Grok 3 = 3.5 倍差。 这是「同厂商升级 + 引入推理」的组合反向:Grok 4 比 Grok 3 新,但 fast-reasoning 在摘要任务上反而比上一代非推理倒退到 3.5 倍。 xAI 在 reasoning 上的训练显然没考虑「贴原文」这个对齐目标。

DeepSeek R1 vs V3.1 = 2.1 倍差。 DeepSeek R1 是国内最早走纯推理路线的开源旗舰,11.3% 比同代 V3.1(5.5%)翻一倍。 但 R1 在 SuperCLUE 综合榜里至今仍排前 10——它的优势在「数学/代码/Agent」这类用得到推理的场景,不在 RAG。 选 R1 还是 V3.1,看任务,不看「谁更新」。

Claude 是反例,旗舰和 Haiku 差距小。 Claude Opus 4.7 12.0% vs Haiku 4.5 9.8%,只差 1.2 倍——这意味着 Anthropic 全系列幻觉率整体偏高(10-12%),不是「旗舰特别糟」。 但 Claude 4.x 系列默认就带 extended thinking,HR 高的根因是同一个:思考链补全空白。

推理模型群 vs 非推理小模型群

把代表性的 10 个纯推理模型和 10 个非推理小模型分别求均值,差距更夸张: 推理组平均 HR 15.8%, 非推理组平均 4.5%, 相差 3.5 倍。

# 推理模型组 HR
1 o3-pro 23.3%
2 grok-4-fast-reasoning 20.2%
3 grok-4-1-fast-reasoning 19.2%
4 o4-mini-high-2025-04-16 18.6%
5 o4-mini-low-2025-04-16 18.6%
6 DeepSeek-R1 11.3%
7 qwen3-next-80b-a3b-thinking 9.3%
8 gpt-5.1-high-2025-11-13 12.1%
9 gpt-5-high-2025-08-07 15.1%
10 gpt-5.2-high-2025-12-11 10.8%
平均 15.8%

推理组里最低的是 DeepSeek R1(11.3%)和 Qwen3-next-thinking(9.3%); 非推理小模型组里最低的是 GPT-5.4 Nano(3.1%)和 Gemini 2.5 Flash Lite(3.3%)。 就算挑两组里最好的对比,3.1% vs 9.3% 还是有 3 倍差。 无论怎么挑样本,「推理 ≈ 更高幻觉」这条结论都站得住。

「更聪明 = 更幻觉」假设:散点验证

上面三节的暗含假设是「推理模型 = 更聪明的模型 = 更高幻觉」。 把 Artificial Analysis 的 Intelligence Index(综合智能分)作为 X 轴, Vectara HHEM 的幻觉率作为 Y 轴画散点,看看 13 个能交叉到两份数据的模型怎么分布。 Pearson 相关系数 = 0.44 (正相关意味着「智能越高,幻觉越高」)。

0% 3% 6% 9% 12% 15% 18% 40 45 50 55 60 AA Intelligence Index → HHEM 幻觉率 (%) → GPT-5.5 Claude Opus 4.7 Gemini 3.1 Pro Preview Kimi K2.6 Claude Sonnet 4.6 DeepSeek V4 Pro GLM-5 MiniMax-M2.7 DeepSeek V4 Flash GPT-5.4 mini GPT-5.4 Gemini 3 Flash GPT-5.4 nano AA 标 reasoning 非 reasoning

相关系数 0.44 —— 几乎所有点都标了 reasoning(AA 这批旗舰模型默认都是推理模式)。 所以图里红绿区分意义不大,更值得看的是 Y 轴绝对值: Intelligence 越高的模型,HR 不见得越低,反而很多停在 9-13% 区间。 智能分 60+ 的 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro,HR 全在 9-12%; 智能分 43 的 GPT-5.4 Nano,HR 反而是 3.1%。

这张图的核心信息是「负相关不存在」。 通俗说:智能分高的模型不会自动给你更低幻觉。 买更贵的旗舰,幻觉不会自动降下来;选更便宜的 Nano,也不会自动升上去。 幻觉率是个独立维度,需要单独优化。

为什么开了推理反而幻觉高:机制 3 点

推理(reasoning)和摘要(summarization)的目标天然冲突。 下面三个机制都基于 HHEM 测试设计 + 当前公开论文(Anthropic 2024 sycophancy 报告、OpenAI 2025 reasoning model card 等)的推断。

1. 推理过程主动「补全空白」

摘要任务的指令是「把文档说了什么写下来」,推理模式的训练目标是「把任务想清楚再回答」。 这两个目标在 90% 的情况下是冲突的——文档没说的事,推理模型会在思考链里「合理推断」, 然后把推断结果当成事实写进摘要。 实测数据:GPT-5.2 high effort 摘要平均 186 字 vs low effort 127 字,多出来的 60 字大概率不是原文有的

2. RLHF 训练让推理模型「更愿意答完整」

OpenAI 在 GPT-5/o1/o3 系列上用了大量「答得完整、答得有信心」的奖励信号—— 所以推理模型的 Answer Rate(拒答率反义)普遍超过 99%(o3-pro 100%、gpt-5.2-high 100%)。 非推理 Phi-4 答题率只有 80.7%、Snowflake-Arctic 62.7%,剩下的 17-37% 是「文档没说,我不答」。 推理模型 = 高答题率 + 高补全空白 = 更多幻觉。 它的逻辑不是「想清楚拒答」,而是「想清楚一定要答出来」。

3. 思考链本身没有 grounding 信号

模型在 reasoning 阶段看不到「原文 vs 推理」的边界——它只是在 token 层面继续生成。 想出来的内容和读到的内容在内部是同等待遇,最后一并写进摘要。 这是为什么 RAG 应用里「open-book reasoning」一直是难题: 推理模式不分上下文和内部知识,混着用。 需要专门做「Constrained Generation」或「Faithful CoT」才能压下来——大部分商用 API 没做这层。

答题率维度:推理模型几乎不拒答

HHEM 还报了 Answer Rate——给文档让摘要,模型有多少次「真给了摘要」(非空)。 AR 低意味着模型频繁拒答(「文档信息不足,无法摘要」),AR 高意味着「永远会硬答」。 推理模型 AR 普遍 99-100%,看似稳定,其实是「不会说不知道」的代价。

模型 HR AR(答题率)
o3-pro23.3%100.0%
grok-4-fast-reasoning20.2%99.5%
gpt-5.2-high10.8%100.0%
DeepSeek R111.3%97.0%
GPT-5.4 Nano3.1%100.0%
Phi-43.7%80.7%
Snowflake-Arctic4.3%62.7%

o3-pro AR 100% + HR 23.3% 这组数特别醒目——它每一次都给了摘要,但近 1/4是文档没说的内容。 相比之下 Snowflake-Arctic AR 62.7%(37% 直接拒答)但 HR 4.3%——它不会编。 这两种行为模式在 RAG 场景里完全不等价: o3-pro 给的答案看起来都很完整,但你必须每条人工核查; Arctic 给的答案能不能答它会先告诉你,答了的那部分基本可信。

GPT-5.4 Nano 是少有的「AR 100% + HR 3.1%」组合,所以它在 RAG/摘要场景被严重低估—— 答得完整、答得准、便宜($0.40/M output)、快、API 在 OpenRouter 上随时能拿。 做事实型问答如果还在用 GPT-5.5 旗舰,先试试 Nano 能不能替代。

按场景选:reasoning 该开还是该关

关 reasoning · 事实必须来自上下文
RAG 检索增强 / 文档摘要 / 客服 FAQ

这三类场景的共性是「答案严格来自上下文,不允许补充」。 推理模式会主动「合理推断」文档没说的事,再写进答案——这就是幻觉的核心来源。

推荐:GPT-5.4 Nano(HR 3.1%)/ Gemini 2.5 Flash Lite(3.3%)/ Llama-3.3-70B-Turbo(4.1%)/ GPT-5.4 mini(5.5%)/ DeepSeek V3.2-Exp(5.3%,国内主力)。 这些都是非推理推理可关的型号,幻觉率全在 6% 以下。

关 reasoning · 需要精确翻译,不能脑补
字幕 / 文档翻译 / 代码注释翻译

翻译要求「原文有什么就译什么」,推理会让模型「优化措辞、补充背景、调整逻辑」,结果偏离原意。 字幕场景对时间戳和原意敏感,推理模式还会乱拆句子。

推荐:GPT-5.4 Nano(HR 3.1%,单价 $0.40/M)/ Gemini 2.5 Flash Lite(HR 3.3%)/ DeepSeek V3.1(HR 5.5%,国内开源)。 翻译场景化选型有完整对比。

视情况 · 长链推理但事实必须准
学术综述 / 法律分析 / 医疗辅助

这类场景既要推理(不是简单复述),又要事实准(不能编案例 / 引文 / 剂量)。 纯推理旗舰(o3-pro 23.3%)危险,纯 Nano 又推理不够。 折中:用推理 low effort中档非推理 + 显式让模型「逐条标注引文位置」

推荐:GPT-5.2 low(HR 8.4%,可控档位)/ GPT-5.4(HR 7.0%)/ DeepSeek V4 Pro(HR 8.6%,国内可用)。 避免 o3-pro / Claude Opus / Gemini 3.1 Pro 这种 HR > 10% 的旗舰。

开 reasoning · 推理本身就是任务
数学 / 代码 / 算法题 / 逻辑题

这是 reasoning 真正的主场。 幻觉率高没关系——数学题的「事实」是定理和逻辑,不是上下文;代码生成的对错由编译器和测试判,不是 HHEM 评。 纯推理模型在这些场景上 SuperCLUE/AA 的表现比非推理高 20-30 分。

推荐:GPT-5.5(AA Intelligence 60.24)/ Claude Opus 4.7(AA 57.28)/ o3-pro(推理深度最强)/ DeepSeek R1(开源最强)/ Grok 4.3(数学专项强)。 详见 数学推理排行编程能力排行

开 reasoning · 需要规划而非陈述
Agent 任务规划 / 工具调用编排 / 多步骤决策

Agent 类任务要的是「想清楚下一步该调什么工具、传什么参数」,推理是核心能力。 不过工具调用本身有错的话,幻觉会传染到执行结果—— 这种场景要在「推理决策」和「数据填充」分阶段: 推理阶段用 GPT-5.5/Claude Opus;数据填充阶段切到 Nano 严守上下文。

推荐:GPT-5.5(AA Agentic 74.12 全球第一)/ Claude Opus 4.7(71.29)/ DeepSeek V4 Flash(性价比之王,Agentic/$ 218.9)。 详见 Agent 能力排行

看完数据,这些坑别踩

坑 1:「贵 = 准」的直觉错配

o3-pro 是 OpenAI 当前最贵的模型之一,HR 却高达 23.3%。 Nano 档(GPT-5.4 Nano $0.40/M)反而 HR 3.1% 全球第二。 做 RAG 系统先用 Nano 测,确认 Nano 推不出来再升级——而不是上来就上旗舰。

坑 2:「开 thinking 一定更准」的厂商话术

Anthropic 的 extended thinking、OpenAI 的 high effort、xAI 的 reasoning 这些功能都被定位成「更聪明 / 更准」。 但本页 6 组同模型对照显示:在摘要任务上,99% 的概率推理 effort 越高幻觉越高。 不要相信「打开就好」,要按场景测。

坑 3:「Answer Rate 100% 才好」的反向陷阱

很多团队拿 AR 当稳定性指标——「答题率高的模型不会挂」。 但 AR 100% 也可能意味着「模型不会说不知道」。 o3-pro AR 100% 但 HR 23.3% 就是反例。 做 RAG 场景应该主动 prompt 让模型「无依据则拒答」,而不是追求 100% 答题率。

坑 4:「同一家旗舰升级幻觉一定降」的版本号迷信

Claude Opus 4.5(10.9%)→ 4.6(12.2%)→ 4.7(12.0%),幻觉率没改善。 GPT-5(15.1%)→ GPT-5.5(9.3%)有改善,但 GPT-5.4 Nano(3.1%)< GPT-5.4(7.0%)< GPT-5.5(9.3%)反而 Nano 最稳。 升版本号 ≠ 升幻觉控制——每次发新版要重新测,不能直接换。 详见 家族代际演化

坑 5:把 HHEM 单一指标当全部

HHEM 测的是「英文摘要任务里的事实一致性」,不代表中文场景、不代表问答场景、不代表 Agent 场景。 SuperCLUE 幻觉控制(中文场景)和 HHEM 经常排名差很多—— GLM-5 HHEM 第 6 但 SuperCLUE 幻觉控制第 1,Kimi K2.5 SuperCLUE 第 7 但 HHEM 倒数第 3。 本页结论限定在「英文 RAG/摘要场景」,中文场景请交叉看 幻觉率排行

数据说明

  • Vectara HHEM-2.3github.com/vectara/hallucination-leaderboard, May 11, 2026 更新,2026-05-14 抓取。105 个模型对 7700+ 篇英文文档做摘要,HHEM-2.3 模型评估摘要的事实一致性。温度 0。
  • Artificial Analysisartificialanalysis.ai, 综合智能分(GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench Telecom / TerminalBench Hard 等加权)。 注意 AA 的 reasoning: true 标签泛指「该模型变体测试时启用了 reasoning」,不是「该模型是纯推理产品」。
  • 同模型 effort 对照: HHEM 在 OpenAI/xAI 提供了同一基础模型的多个 effort/reasoning 端点。 o4-mini 是「原生推理」无法关,只能切 effort; GPT-5/5.1/5.2 是「推理可调」; Grok 4 Fast 是「reasoning 开关二选一 API」。
  • 本页限定范围: HHEM 只测「英文摘要事实一致性」。本页结论应用到:英文 RAG、英文文档摘要、英文客服问答、英文翻译。 中文场景请参考 SuperCLUE 幻觉控制(见 幻觉率排行)。 数学/代码/Agent 场景请参考 数学推理 / 编程能力 / Agent 能力 排行。