2026-05-14 · 深度分析 · 推理模式对幻觉的影响

推理模式真的更准吗？同模型实测：开 reasoning 幻觉反而 +0.5%-2.4%

现在所有厂商都在推 reasoning 模式——OpenAI 的 effort 档位、xAI 的 reasoning/non-reasoning 双 API、Anthropic 的 extended thinking、Google 的 Deep Think。宣传话术都是「推理让模型更准」。 Vectara HHEM-2.3（May 11, 2026）给了一个简单的反问：同一个模型把 reasoning effort 调高，幻觉率会怎么变？ 答案在下面 6 组实测数据里。

推理 effort 开越大，幻觉越多。 6 组同模型对照里 5 组幻觉率上升，平均 +0.98%。 GPT-5.2 从 low 切 high 涨 +2.4%，Grok 4.1 Fast 切 reasoning 涨 +1.4%。只有 o4-mini 内部 low/high 持平（18.6% vs 18.6%）——但绝对值已经是榜单倒数。

纯推理旗舰被同家族 Nano 反向吊打。 o3-pro 幻觉率 23.3% 是 GPT-5.4 Nano（3.1%）的 7.5 倍。 Grok-4-fast-reasoning 20.2% 是上代 Grok 3（5.8%）的 3.5 倍。 10 个纯推理模型平均 HR 15.8%，10 个非推理小模型平均 4.5%，差 3.5 倍。

不是「推理更糟」，是「在摘要 / RAG 任务上推理是负优化」。 HHEM 测的是「摘要不能脱离原文」，推理过程会主动「补全空白、推导隐含信息」——这刚好和「严格贴原文」的目标相反。如果你做的是 RAG、文档摘要、客服问答、字幕翻译这种「事实必须来自上下文」的场景，关掉 reasoning 是对的。如果做的是数学、代码、Agent 规划，推理仍然重要——本页第 7 节给完整场景表。

同一模型，切 effort 档位的幻觉变化

这是最干净的对照：同一个 base model，只切 reasoning effort，HHEM-2.3 同一套 7700+ 文档摘要测试。数据来自 Vectara Hallucination Leaderboard（github，May 11, 2026 更新）。

模型家族	低 effort HR	高 effort HR	Δ HR	摘要长度
GPT-5.2 OpenAI · low effort → high effort	8.4%	10.8%	+2.4%	127 → 186 (+47%)
GPT-5.1 OpenAI · low effort → high effort	10.9%	12.1%	+1.2%	166 → 254 (+54%)
GPT-5 OpenAI · minimal effort → high effort	14.7%	15.1%	+0.4%	110 → 163 (+48%)
Grok 4.1 Fast xAI · non-reasoning → reasoning	17.8%	19.2%	+1.4%	88 → 100 (+14%)
Grok 4 Fast xAI · non-reasoning → reasoning	19.7%	20.2%	+0.5%	142 → 174 (+23%)
o4-mini OpenAI · low effort → high effort	18.6%	18.6%	0%	131 → 128 (-2%)

5 / 6 组上涨，平均 +0.98%。 GPT-5.2 涨 2.4% 最猛，GPT-5.1 涨 1.2%，Grok 4.1 Fast 涨 1.4%，Grok 4 Fast 涨 0.5%，GPT-5 涨 0.4%；只有 o4-mini 在 18.6% 上持平——但它本身已经是榜单倒数第二，没有改善空间。 GPT-5 这条样本 effort 跨度大（minimal → high）但 HR 涨幅小，因为 GPT-5 是 2025-08 老模型基线本身就偏高，不像 GPT-5.1/5.2 在 low 档已经下探到 8-11% 区间。

摘要长度同时也在涨，幅度比 HR 还猛。 GPT-5.2 摘要长度从 126.5 涨到 186.3（+47%），GPT-5.1 从 165.5 涨到 254.4（+54%）。推理模式让模型「多想多写」——多写的那些字，刚好就是 HHEM 判定为「文档没说过」的部分。这是后面机制分析的核心证据：推理不是「想清楚再说」，而是「想出来再补到答案里」。

旗舰推理模型 vs 同家族小模型

上一节是「同模型切 effort」，这一节是「同厂商旗舰 vs Nano / Flash / Lite」。旗舰模型基本都默认开 reasoning（或者就是纯推理产品如 o3-pro / R1），Nano 档则普遍是纯生成式。反差比 effort 切换更夸张——倍数级别。

厂商	旗舰 / 推理	HR	同家族小模型	HR	倍数
OpenAI	o3-pro 纯推理旗舰	23.3%	GPT-5.4 Nano 主力 Nano，非推理	3.1%	7.52×
OpenAI	GPT-5.5 当前 OpenAI 主力	9.3%	GPT-5.4 Nano 同厂 Nano	3.1%	3×
xAI	Grok 4 Fast (reasoning) 开了 reasoning	20.2%	Grok 3 上代非推理	5.8%	3.48×
Google	Gemini 3.1 Pro Preview 当代 Pro 旗舰	10.4%	Gemini 2.5 Flash Lite 上代 Lite	3.3%	3.15×
Anthropic	Claude Opus 4.7 当代旗舰	12%	Claude Haiku 4.5 主力轻量	9.8%	1.22×
DeepSeek	DeepSeek R1 专项推理	11.3%	DeepSeek V3.1 同代非推理	5.5%	2.05×

o3-pro vs GPT-5.4 Nano = 7.5 倍差。 o3-pro 是 OpenAI 当代纯推理旗舰，定位是「最聪明、最贵」，HR 却是 23.3%（全榜倒数第 4）； GPT-5.4 Nano 是 OpenAI 主力 Nano，定位「便宜、快」，HR 只有 3.1%（全榜第 2）。做 RAG 摘要你买 o3-pro，幻觉是 Nano 的 7.5 倍，价格高 30+ 倍——双重亏损。

Grok 4 Fast reasoning vs Grok 3 = 3.5 倍差。 这是「同厂商升级 + 引入推理」的组合反向：Grok 4 比 Grok 3 新，但 fast-reasoning 在摘要任务上反而比上一代非推理倒退到 3.5 倍。 xAI 在 reasoning 上的训练显然没考虑「贴原文」这个对齐目标。

DeepSeek R1 vs V3.1 = 2.1 倍差。 DeepSeek R1 是国内最早走纯推理路线的开源旗舰，11.3% 比同代 V3.1（5.5%）翻一倍。但 R1 在 SuperCLUE 综合榜里至今仍排前 10——它的优势在「数学/代码/Agent」这类用得到推理的场景，不在 RAG。选 R1 还是 V3.1，看任务，不看「谁更新」。

Claude 是反例，旗舰和 Haiku 差距小。 Claude Opus 4.7 12.0% vs Haiku 4.5 9.8%，只差 1.2 倍——这意味着 Anthropic 全系列幻觉率整体偏高（10-12%），不是「旗舰特别糟」。但 Claude 4.x 系列默认就带 extended thinking，HR 高的根因是同一个：思考链补全空白。

推理模型群 vs 非推理小模型群

把代表性的 10 个纯推理模型和 10 个非推理小模型分别求均值，差距更夸张：推理组平均 HR 15.8%，非推理组平均 4.5%，相差 3.5 倍。

#	推理模型组	HR	非推理小模型组	HR
1	o3-pro	23.3%	gpt-5.4-nano-2026-03-17	3.1%
2	grok-4-fast-reasoning	20.2%	gemini-2.5-flash-lite	3.3%
3	grok-4-1-fast-reasoning	19.2%	Llama-3.3-70B-Instruct-Turbo	4.1%
4	o4-mini-high-2025-04-16	18.6%	gpt-5.4-mini-2026-03-17	5.5%
5	o4-mini-low-2025-04-16	18.6%	qwen3-8b	4.8%
6	DeepSeek-R1	11.3%	mistral-small-2501	5.1%
7	qwen3-next-80b-a3b-thinking	9.3%	nova-2-lite-v1:0	5.1%
8	gpt-5.1-high-2025-11-13	12.1%	gemma-3-12b-it	4.4%
9	gpt-5-high-2025-08-07	15.1%	Phi-4	3.7%
10	gpt-5.2-high-2025-12-11	10.8%	qwen3-4b	5.7%
	平均	15.8%	平均	4.5%

推理组里最低的是 DeepSeek R1（11.3%）和 Qwen3-next-thinking（9.3%）；非推理小模型组里最低的是 GPT-5.4 Nano（3.1%）和 Gemini 2.5 Flash Lite（3.3%）。就算挑两组里最好的对比，3.1% vs 9.3% 还是有 3 倍差。 无论怎么挑样本，「推理 ≈ 更高幻觉」这条结论都站得住。

「更聪明 = 更幻觉」假设：散点验证

上面三节的暗含假设是「推理模型 = 更聪明的模型 = 更高幻觉」。把 Artificial Analysis 的 Intelligence Index（综合智能分）作为 X 轴， Vectara HHEM 的幻觉率作为 Y 轴画散点，看看 13 个能交叉到两份数据的模型怎么分布。 Pearson 相关系数 = 0.44 （正相关意味着「智能越高，幻觉越高」）。

相关系数 0.44 —— 几乎所有点都标了 reasoning（AA 这批旗舰模型默认都是推理模式）。 所以图里红绿区分意义不大，更值得看的是 Y 轴绝对值： Intelligence 越高的模型，HR 不见得越低，反而很多停在 9-13% 区间。智能分 60+ 的 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro，HR 全在 9-12%；智能分 43 的 GPT-5.4 Nano，HR 反而是 3.1%。

这张图的核心信息是「负相关不存在」。 通俗说：智能分高的模型不会自动给你更低幻觉。买更贵的旗舰，幻觉不会自动降下来；选更便宜的 Nano，也不会自动升上去。幻觉率是个独立维度，需要单独优化。

为什么开了推理反而幻觉高：机制 3 点

推理（reasoning）和摘要（summarization）的目标天然冲突。下面三个机制都基于 HHEM 测试设计 + 当前公开论文（Anthropic 2024 sycophancy 报告、OpenAI 2025 reasoning model card 等）的推断。

1. 推理过程主动「补全空白」

摘要任务的指令是「把文档说了什么写下来」，推理模式的训练目标是「把任务想清楚再回答」。这两个目标在 90% 的情况下是冲突的——文档没说的事，推理模型会在思考链里「合理推断」，然后把推断结果当成事实写进摘要。实测数据：GPT-5.2 high effort 摘要平均 186 字 vs low effort 127 字，多出来的 60 字大概率不是原文有的。

2. RLHF 训练让推理模型「更愿意答完整」

OpenAI 在 GPT-5/o1/o3 系列上用了大量「答得完整、答得有信心」的奖励信号—— 所以推理模型的 Answer Rate（拒答率反义）普遍超过 99%（o3-pro 100%、gpt-5.2-high 100%）。非推理 Phi-4 答题率只有 80.7%、Snowflake-Arctic 62.7%，剩下的 17-37% 是「文档没说，我不答」。 推理模型 = 高答题率 + 高补全空白 = 更多幻觉。它的逻辑不是「想清楚拒答」，而是「想清楚一定要答出来」。

3. 思考链本身没有 grounding 信号

模型在 reasoning 阶段看不到「原文 vs 推理」的边界——它只是在 token 层面继续生成。想出来的内容和读到的内容在内部是同等待遇，最后一并写进摘要。这是为什么 RAG 应用里「open-book reasoning」一直是难题：推理模式不分上下文和内部知识，混着用。需要专门做「Constrained Generation」或「Faithful CoT」才能压下来——大部分商用 API 没做这层。

答题率维度：推理模型几乎不拒答

HHEM 还报了 Answer Rate——给文档让摘要，模型有多少次「真给了摘要」（非空）。 AR 低意味着模型频繁拒答（「文档信息不足，无法摘要」），AR 高意味着「永远会硬答」。推理模型 AR 普遍 99-100%，看似稳定，其实是「不会说不知道」的代价。

模型	HR	AR（答题率）	类别
o3-pro	23.3%	100.0%	纯推理旗舰
grok-4-fast-reasoning	20.2%	99.5%	推理 ON
gpt-5.2-high	10.8%	100.0%	推理高档
DeepSeek R1	11.3%	97.0%	推理旗舰
GPT-5.4 Nano	3.1%	100.0%	非推理 Nano
Phi-4	3.7%	80.7%	爱拒答
Snowflake-Arctic	4.3%	62.7%	频繁拒答

o3-pro AR 100% + HR 23.3% 这组数特别醒目——它每一次都给了摘要，但近 1/4是文档没说的内容。相比之下 Snowflake-Arctic AR 62.7%（37% 直接拒答）但 HR 4.3%——它不会编。这两种行为模式在 RAG 场景里完全不等价： o3-pro 给的答案看起来都很完整，但你必须每条人工核查； Arctic 给的答案能不能答它会先告诉你，答了的那部分基本可信。

GPT-5.4 Nano 是少有的「AR 100% + HR 3.1%」组合，所以它在 RAG/摘要场景被严重低估—— 答得完整、答得准、便宜（$0.40/M output）、快、API 在 OpenRouter 上随时能拿。做事实型问答如果还在用 GPT-5.5 旗舰，先试试 Nano 能不能替代。

按场景选：reasoning 该开还是该关

关 reasoning · 事实必须来自上下文

RAG 检索增强 / 文档摘要 / 客服 FAQ

这三类场景的共性是「答案严格来自上下文，不允许补充」。推理模式会主动「合理推断」文档没说的事，再写进答案——这就是幻觉的核心来源。

推荐：GPT-5.4 Nano（HR 3.1%）/ Gemini 2.5 Flash Lite（3.3%）/ Llama-3.3-70B-Turbo（4.1%）/ GPT-5.4 mini（5.5%）/ DeepSeek V3.2-Exp（5.3%，国内主力）。这些都是非推理或推理可关的型号，幻觉率全在 6% 以下。

关 reasoning · 需要精确翻译，不能脑补

字幕 / 文档翻译 / 代码注释翻译

翻译要求「原文有什么就译什么」，推理会让模型「优化措辞、补充背景、调整逻辑」，结果偏离原意。字幕场景对时间戳和原意敏感，推理模式还会乱拆句子。

推荐：GPT-5.4 Nano（HR 3.1%，单价 $0.40/M）/ Gemini 2.5 Flash Lite（HR 3.3%）/ DeepSeek V3.1（HR 5.5%，国内开源）。翻译场景化选型有完整对比。

视情况 · 长链推理但事实必须准

学术综述 / 法律分析 / 医疗辅助

这类场景既要推理（不是简单复述），又要事实准（不能编案例 / 引文 / 剂量）。纯推理旗舰（o3-pro 23.3%）危险，纯 Nano 又推理不够。折中：用推理 low effort或中档非推理 + 显式让模型「逐条标注引文位置」。

推荐：GPT-5.2 low（HR 8.4%，可控档位）/ GPT-5.4（HR 7.0%）/ DeepSeek V4 Pro（HR 8.6%，国内可用）。避免 o3-pro / Claude Opus / Gemini 3.1 Pro 这种 HR > 10% 的旗舰。

开 reasoning · 推理本身就是任务

数学 / 代码 / 算法题 / 逻辑题

这是 reasoning 真正的主场。幻觉率高没关系——数学题的「事实」是定理和逻辑，不是上下文；代码生成的对错由编译器和测试判，不是 HHEM 评。纯推理模型在这些场景上 SuperCLUE/AA 的表现比非推理高 20-30 分。

推荐：GPT-5.5（AA Intelligence 60.24）/ Claude Opus 4.7（AA 57.28）/ o3-pro（推理深度最强）/ DeepSeek R1（开源最强）/ Grok 4.3（数学专项强）。详见数学推理排行、编程能力排行。

开 reasoning · 需要规划而非陈述

Agent 任务规划 / 工具调用编排 / 多步骤决策

Agent 类任务要的是「想清楚下一步该调什么工具、传什么参数」，推理是核心能力。不过工具调用本身有错的话，幻觉会传染到执行结果—— 这种场景要在「推理决策」和「数据填充」分阶段：推理阶段用 GPT-5.5/Claude Opus；数据填充阶段切到 Nano 严守上下文。

推荐：GPT-5.5（AA Agentic 74.12 全球第一）/ Claude Opus 4.7（71.29）/ DeepSeek V4 Flash（性价比之王，Agentic/$ 218.9）。详见 Agent 能力排行。

看完数据，这些坑别踩

坑 1：「贵 = 准」的直觉错配

o3-pro 是 OpenAI 当前最贵的模型之一，HR 却高达 23.3%。 Nano 档（GPT-5.4 Nano $0.40/M）反而 HR 3.1% 全球第二。做 RAG 系统先用 Nano 测，确认 Nano 推不出来再升级——而不是上来就上旗舰。

坑 2：「开 thinking 一定更准」的厂商话术

Anthropic 的 extended thinking、OpenAI 的 high effort、xAI 的 reasoning 这些功能都被定位成「更聪明 / 更准」。但本页 6 组同模型对照显示：在摘要任务上，99% 的概率推理 effort 越高幻觉越高。不要相信「打开就好」，要按场景测。

坑 3：「Answer Rate 100% 才好」的反向陷阱

很多团队拿 AR 当稳定性指标——「答题率高的模型不会挂」。但 AR 100% 也可能意味着「模型不会说不知道」。 o3-pro AR 100% 但 HR 23.3% 就是反例。做 RAG 场景应该主动 prompt 让模型「无依据则拒答」，而不是追求 100% 答题率。

坑 4：「同一家旗舰升级幻觉一定降」的版本号迷信

Claude Opus 4.5（10.9%）→ 4.6（12.2%）→ 4.7（12.0%），幻觉率没改善。 GPT-5（15.1%）→ GPT-5.5（9.3%）有改善，但 GPT-5.4 Nano（3.1%）< GPT-5.4（7.0%）< GPT-5.5（9.3%）反而 Nano 最稳。升版本号 ≠ 升幻觉控制——每次发新版要重新测，不能直接换。详见家族代际演化。

坑 5：把 HHEM 单一指标当全部

HHEM 测的是「英文摘要任务里的事实一致性」，不代表中文场景、不代表问答场景、不代表 Agent 场景。 SuperCLUE 幻觉控制（中文场景）和 HHEM 经常排名差很多—— GLM-5 HHEM 第 6 但 SuperCLUE 幻觉控制第 1，Kimi K2.5 SuperCLUE 第 7 但 HHEM 倒数第 3。本页结论限定在「英文 RAG/摘要场景」，中文场景请交叉看幻觉率排行。

数据说明

Vectara HHEM-2.3： github.com/vectara/hallucination-leaderboard， May 11, 2026 更新，2026-05-14 抓取。105 个模型对 7700+ 篇英文文档做摘要，HHEM-2.3 模型评估摘要的事实一致性。温度 0。
Artificial Analysis： artificialanalysis.ai，综合智能分（GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench Telecom / TerminalBench Hard 等加权）。注意 AA 的 reasoning: true 标签泛指「该模型变体测试时启用了 reasoning」，不是「该模型是纯推理产品」。
同模型 effort 对照： HHEM 在 OpenAI/xAI 提供了同一基础模型的多个 effort/reasoning 端点。 o4-mini 是「原生推理」无法关，只能切 effort； GPT-5/5.1/5.2 是「推理可调」； Grok 4 Fast 是「reasoning 开关二选一 API」。
本页限定范围： HHEM 只测「英文摘要事实一致性」。本页结论应用到：英文 RAG、英文文档摘要、英文客服问答、英文翻译。中文场景请参考 SuperCLUE 幻觉控制（见幻觉率排行）。数学/代码/Agent 场景请参考数学推理 / 编程能力 / Agent 能力排行。