推理模式真的更准吗?同模型实测:开 reasoning 幻觉反而 +0.5%-2.4%
现在所有厂商都在推 reasoning 模式——OpenAI 的 effort 档位、xAI 的 reasoning/non-reasoning 双 API、Anthropic 的 extended thinking、Google 的 Deep Think。 宣传话术都是「推理让模型更准」。 Vectara HHEM-2.3(May 11, 2026)给了一个简单的反问:同一个模型把 reasoning effort 调高,幻觉率会怎么变? 答案在下面 6 组实测数据里。
推理 effort 开越大,幻觉越多。 6 组同模型对照里 5 组幻觉率上升,平均 +0.98%。 GPT-5.2 从 low 切 high 涨 +2.4%,Grok 4.1 Fast 切 reasoning 涨 +1.4%。 只有 o4-mini 内部 low/high 持平(18.6% vs 18.6%)——但绝对值已经是榜单倒数。
纯推理旗舰被同家族 Nano 反向吊打。 o3-pro 幻觉率 23.3% 是 GPT-5.4 Nano(3.1%)的 7.5 倍。 Grok-4-fast-reasoning 20.2% 是上代 Grok 3(5.8%)的 3.5 倍。 10 个纯推理模型平均 HR 15.8%,10 个非推理小模型平均 4.5%,差 3.5 倍。
不是「推理更糟」,是「在摘要 / RAG 任务上推理是负优化」。 HHEM 测的是「摘要不能脱离原文」,推理过程会主动「补全空白、推导隐含信息」——这刚好和「严格贴原文」的目标相反。 如果你做的是 RAG、文档摘要、客服问答、字幕翻译这种「事实必须来自上下文」的场景,关掉 reasoning 是对的。 如果做的是数学、代码、Agent 规划,推理仍然重要——本页第 7 节给完整场景表。
同一模型,切 effort 档位的幻觉变化
这是最干净的对照:同一个 base model,只切 reasoning effort,HHEM-2.3 同一套 7700+ 文档摘要测试。 数据来自 Vectara Hallucination Leaderboard(github,May 11, 2026 更新)。
| 模型家族 | 低 effort HR | 高 effort HR | Δ HR |
|---|---|---|---|
| GPT-5.2 OpenAI · low effort → high effort | 8.4% | 10.8% | +2.4% |
| GPT-5.1 OpenAI · low effort → high effort | 10.9% | 12.1% | +1.2% |
| GPT-5 OpenAI · minimal effort → high effort | 14.7% | 15.1% | +0.4% |
| Grok 4.1 Fast xAI · non-reasoning → reasoning | 17.8% | 19.2% | +1.4% |
| Grok 4 Fast xAI · non-reasoning → reasoning | 19.7% | 20.2% | +0.5% |
| o4-mini OpenAI · low effort → high effort | 18.6% | 18.6% | 0% |
5 / 6 组上涨,平均 +0.98%。 GPT-5.2 涨 2.4% 最猛,GPT-5.1 涨 1.2%,Grok 4.1 Fast 涨 1.4%,Grok 4 Fast 涨 0.5%,GPT-5 涨 0.4%; 只有 o4-mini 在 18.6% 上持平——但它本身已经是榜单倒数第二,没有改善空间。 GPT-5 这条样本 effort 跨度大(minimal → high)但 HR 涨幅小,因为 GPT-5 是 2025-08 老模型基线本身就偏高,不像 GPT-5.1/5.2 在 low 档已经下探到 8-11% 区间。
摘要长度同时也在涨,幅度比 HR 还猛。 GPT-5.2 摘要长度从 126.5 涨到 186.3(+47%),GPT-5.1 从 165.5 涨到 254.4(+54%)。 推理模式让模型「多想多写」——多写的那些字,刚好就是 HHEM 判定为「文档没说过」的部分。 这是后面机制分析的核心证据:推理不是「想清楚再说」,而是「想出来再补到答案里」。
旗舰推理模型 vs 同家族小模型
上一节是「同模型切 effort」,这一节是「同厂商旗舰 vs Nano / Flash / Lite」。 旗舰模型基本都默认开 reasoning(或者就是纯推理产品如 o3-pro / R1),Nano 档则普遍是纯生成式。 反差比 effort 切换更夸张——倍数级别。
| 厂商 | 旗舰 / 推理 | HR | 倍数 |
|---|---|---|---|
| OpenAI | o3-pro 纯推理旗舰 | 23.3% | 7.52× |
| OpenAI | GPT-5.5 当前 OpenAI 主力 | 9.3% | 3× |
| xAI | Grok 4 Fast (reasoning) 开了 reasoning | 20.2% | 3.48× |
| Gemini 3.1 Pro Preview 当代 Pro 旗舰 | 10.4% | 3.15× | |
| Anthropic | Claude Opus 4.7 当代旗舰 | 12% | 1.22× |
| DeepSeek | DeepSeek R1 专项推理 | 11.3% | 2.05× |
o3-pro vs GPT-5.4 Nano = 7.5 倍差。 o3-pro 是 OpenAI 当代纯推理旗舰,定位是「最聪明、最贵」,HR 却是 23.3%(全榜倒数第 4); GPT-5.4 Nano 是 OpenAI 主力 Nano,定位「便宜、快」,HR 只有 3.1%(全榜第 2)。 做 RAG 摘要你买 o3-pro,幻觉是 Nano 的 7.5 倍,价格高 30+ 倍——双重亏损。
Grok 4 Fast reasoning vs Grok 3 = 3.5 倍差。 这是「同厂商升级 + 引入推理」的组合反向:Grok 4 比 Grok 3 新,但 fast-reasoning 在摘要任务上反而比上一代非推理倒退到 3.5 倍。 xAI 在 reasoning 上的训练显然没考虑「贴原文」这个对齐目标。
DeepSeek R1 vs V3.1 = 2.1 倍差。 DeepSeek R1 是国内最早走纯推理路线的开源旗舰,11.3% 比同代 V3.1(5.5%)翻一倍。 但 R1 在 SuperCLUE 综合榜里至今仍排前 10——它的优势在「数学/代码/Agent」这类用得到推理的场景,不在 RAG。 选 R1 还是 V3.1,看任务,不看「谁更新」。
Claude 是反例,旗舰和 Haiku 差距小。 Claude Opus 4.7 12.0% vs Haiku 4.5 9.8%,只差 1.2 倍——这意味着 Anthropic 全系列幻觉率整体偏高(10-12%),不是「旗舰特别糟」。 但 Claude 4.x 系列默认就带 extended thinking,HR 高的根因是同一个:思考链补全空白。
推理模型群 vs 非推理小模型群
把代表性的 10 个纯推理模型和 10 个非推理小模型分别求均值,差距更夸张: 推理组平均 HR 15.8%, 非推理组平均 4.5%, 相差 3.5 倍。
| # | 推理模型组 | HR |
|---|---|---|
| 1 | o3-pro | 23.3% |
| 2 | grok-4-fast-reasoning | 20.2% |
| 3 | grok-4-1-fast-reasoning | 19.2% |
| 4 | o4-mini-high-2025-04-16 | 18.6% |
| 5 | o4-mini-low-2025-04-16 | 18.6% |
| 6 | DeepSeek-R1 | 11.3% |
| 7 | qwen3-next-80b-a3b-thinking | 9.3% |
| 8 | gpt-5.1-high-2025-11-13 | 12.1% |
| 9 | gpt-5-high-2025-08-07 | 15.1% |
| 10 | gpt-5.2-high-2025-12-11 | 10.8% |
| 平均 | 15.8% |
推理组里最低的是 DeepSeek R1(11.3%)和 Qwen3-next-thinking(9.3%); 非推理小模型组里最低的是 GPT-5.4 Nano(3.1%)和 Gemini 2.5 Flash Lite(3.3%)。 就算挑两组里最好的对比,3.1% vs 9.3% 还是有 3 倍差。 无论怎么挑样本,「推理 ≈ 更高幻觉」这条结论都站得住。
「更聪明 = 更幻觉」假设:散点验证
上面三节的暗含假设是「推理模型 = 更聪明的模型 = 更高幻觉」。 把 Artificial Analysis 的 Intelligence Index(综合智能分)作为 X 轴, Vectara HHEM 的幻觉率作为 Y 轴画散点,看看 13 个能交叉到两份数据的模型怎么分布。 Pearson 相关系数 = 0.44 (正相关意味着「智能越高,幻觉越高」)。
相关系数 0.44 —— 几乎所有点都标了 reasoning(AA 这批旗舰模型默认都是推理模式)。 所以图里红绿区分意义不大,更值得看的是 Y 轴绝对值: Intelligence 越高的模型,HR 不见得越低,反而很多停在 9-13% 区间。 智能分 60+ 的 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro,HR 全在 9-12%; 智能分 43 的 GPT-5.4 Nano,HR 反而是 3.1%。
这张图的核心信息是「负相关不存在」。 通俗说:智能分高的模型不会自动给你更低幻觉。 买更贵的旗舰,幻觉不会自动降下来;选更便宜的 Nano,也不会自动升上去。 幻觉率是个独立维度,需要单独优化。
为什么开了推理反而幻觉高:机制 3 点
推理(reasoning)和摘要(summarization)的目标天然冲突。 下面三个机制都基于 HHEM 测试设计 + 当前公开论文(Anthropic 2024 sycophancy 报告、OpenAI 2025 reasoning model card 等)的推断。
1. 推理过程主动「补全空白」
摘要任务的指令是「把文档说了什么写下来」,推理模式的训练目标是「把任务想清楚再回答」。 这两个目标在 90% 的情况下是冲突的——文档没说的事,推理模型会在思考链里「合理推断」, 然后把推断结果当成事实写进摘要。 实测数据:GPT-5.2 high effort 摘要平均 186 字 vs low effort 127 字,多出来的 60 字大概率不是原文有的。
2. RLHF 训练让推理模型「更愿意答完整」
OpenAI 在 GPT-5/o1/o3 系列上用了大量「答得完整、答得有信心」的奖励信号—— 所以推理模型的 Answer Rate(拒答率反义)普遍超过 99%(o3-pro 100%、gpt-5.2-high 100%)。 非推理 Phi-4 答题率只有 80.7%、Snowflake-Arctic 62.7%,剩下的 17-37% 是「文档没说,我不答」。 推理模型 = 高答题率 + 高补全空白 = 更多幻觉。 它的逻辑不是「想清楚拒答」,而是「想清楚一定要答出来」。
3. 思考链本身没有 grounding 信号
模型在 reasoning 阶段看不到「原文 vs 推理」的边界——它只是在 token 层面继续生成。 想出来的内容和读到的内容在内部是同等待遇,最后一并写进摘要。 这是为什么 RAG 应用里「open-book reasoning」一直是难题: 推理模式不分上下文和内部知识,混着用。 需要专门做「Constrained Generation」或「Faithful CoT」才能压下来——大部分商用 API 没做这层。
答题率维度:推理模型几乎不拒答
HHEM 还报了 Answer Rate——给文档让摘要,模型有多少次「真给了摘要」(非空)。 AR 低意味着模型频繁拒答(「文档信息不足,无法摘要」),AR 高意味着「永远会硬答」。 推理模型 AR 普遍 99-100%,看似稳定,其实是「不会说不知道」的代价。
| 模型 | HR | AR(答题率) |
|---|---|---|
| o3-pro | 23.3% | 100.0% |
| grok-4-fast-reasoning | 20.2% | 99.5% |
| gpt-5.2-high | 10.8% | 100.0% |
| DeepSeek R1 | 11.3% | 97.0% |
| GPT-5.4 Nano | 3.1% | 100.0% |
| Phi-4 | 3.7% | 80.7% |
| Snowflake-Arctic | 4.3% | 62.7% |
o3-pro AR 100% + HR 23.3% 这组数特别醒目——它每一次都给了摘要,但近 1/4是文档没说的内容。 相比之下 Snowflake-Arctic AR 62.7%(37% 直接拒答)但 HR 4.3%——它不会编。 这两种行为模式在 RAG 场景里完全不等价: o3-pro 给的答案看起来都很完整,但你必须每条人工核查; Arctic 给的答案能不能答它会先告诉你,答了的那部分基本可信。
GPT-5.4 Nano 是少有的「AR 100% + HR 3.1%」组合,所以它在 RAG/摘要场景被严重低估—— 答得完整、答得准、便宜($0.40/M output)、快、API 在 OpenRouter 上随时能拿。 做事实型问答如果还在用 GPT-5.5 旗舰,先试试 Nano 能不能替代。
按场景选:reasoning 该开还是该关
这三类场景的共性是「答案严格来自上下文,不允许补充」。 推理模式会主动「合理推断」文档没说的事,再写进答案——这就是幻觉的核心来源。
推荐:GPT-5.4 Nano(HR 3.1%)/ Gemini 2.5 Flash Lite(3.3%)/ Llama-3.3-70B-Turbo(4.1%)/ GPT-5.4 mini(5.5%)/ DeepSeek V3.2-Exp(5.3%,国内主力)。 这些都是非推理或推理可关的型号,幻觉率全在 6% 以下。
翻译要求「原文有什么就译什么」,推理会让模型「优化措辞、补充背景、调整逻辑」,结果偏离原意。 字幕场景对时间戳和原意敏感,推理模式还会乱拆句子。
推荐:GPT-5.4 Nano(HR 3.1%,单价 $0.40/M)/ Gemini 2.5 Flash Lite(HR 3.3%)/ DeepSeek V3.1(HR 5.5%,国内开源)。 翻译场景化选型有完整对比。
这类场景既要推理(不是简单复述),又要事实准(不能编案例 / 引文 / 剂量)。 纯推理旗舰(o3-pro 23.3%)危险,纯 Nano 又推理不够。 折中:用推理 low effort或中档非推理 + 显式让模型「逐条标注引文位置」。
推荐:GPT-5.2 low(HR 8.4%,可控档位)/ GPT-5.4(HR 7.0%)/ DeepSeek V4 Pro(HR 8.6%,国内可用)。 避免 o3-pro / Claude Opus / Gemini 3.1 Pro 这种 HR > 10% 的旗舰。
这是 reasoning 真正的主场。 幻觉率高没关系——数学题的「事实」是定理和逻辑,不是上下文;代码生成的对错由编译器和测试判,不是 HHEM 评。 纯推理模型在这些场景上 SuperCLUE/AA 的表现比非推理高 20-30 分。
推荐:GPT-5.5(AA Intelligence 60.24)/ Claude Opus 4.7(AA 57.28)/ o3-pro(推理深度最强)/ DeepSeek R1(开源最强)/ Grok 4.3(数学专项强)。 详见 数学推理排行、编程能力排行。
Agent 类任务要的是「想清楚下一步该调什么工具、传什么参数」,推理是核心能力。 不过工具调用本身有错的话,幻觉会传染到执行结果—— 这种场景要在「推理决策」和「数据填充」分阶段: 推理阶段用 GPT-5.5/Claude Opus;数据填充阶段切到 Nano 严守上下文。
推荐:GPT-5.5(AA Agentic 74.12 全球第一)/ Claude Opus 4.7(71.29)/ DeepSeek V4 Flash(性价比之王,Agentic/$ 218.9)。 详见 Agent 能力排行。
看完数据,这些坑别踩
o3-pro 是 OpenAI 当前最贵的模型之一,HR 却高达 23.3%。 Nano 档(GPT-5.4 Nano $0.40/M)反而 HR 3.1% 全球第二。 做 RAG 系统先用 Nano 测,确认 Nano 推不出来再升级——而不是上来就上旗舰。
Anthropic 的 extended thinking、OpenAI 的 high effort、xAI 的 reasoning 这些功能都被定位成「更聪明 / 更准」。 但本页 6 组同模型对照显示:在摘要任务上,99% 的概率推理 effort 越高幻觉越高。 不要相信「打开就好」,要按场景测。
很多团队拿 AR 当稳定性指标——「答题率高的模型不会挂」。 但 AR 100% 也可能意味着「模型不会说不知道」。 o3-pro AR 100% 但 HR 23.3% 就是反例。 做 RAG 场景应该主动 prompt 让模型「无依据则拒答」,而不是追求 100% 答题率。
Claude Opus 4.5(10.9%)→ 4.6(12.2%)→ 4.7(12.0%),幻觉率没改善。 GPT-5(15.1%)→ GPT-5.5(9.3%)有改善,但 GPT-5.4 Nano(3.1%)< GPT-5.4(7.0%)< GPT-5.5(9.3%)反而 Nano 最稳。 升版本号 ≠ 升幻觉控制——每次发新版要重新测,不能直接换。 详见 家族代际演化。
HHEM 测的是「英文摘要任务里的事实一致性」,不代表中文场景、不代表问答场景、不代表 Agent 场景。 SuperCLUE 幻觉控制(中文场景)和 HHEM 经常排名差很多—— GLM-5 HHEM 第 6 但 SuperCLUE 幻觉控制第 1,Kimi K2.5 SuperCLUE 第 7 但 HHEM 倒数第 3。 本页结论限定在「英文 RAG/摘要场景」,中文场景请交叉看 幻觉率排行。
数据说明
- Vectara HHEM-2.3: github.com/vectara/hallucination-leaderboard, May 11, 2026 更新,2026-05-14 抓取。105 个模型对 7700+ 篇英文文档做摘要,HHEM-2.3 模型评估摘要的事实一致性。温度 0。
- Artificial Analysis:
artificialanalysis.ai,
综合智能分(GPQA / HLE / MMLU-Pro / SciCode / Tau²-Bench Telecom / TerminalBench Hard 等加权)。
注意 AA 的
reasoning: true标签泛指「该模型变体测试时启用了 reasoning」,不是「该模型是纯推理产品」。 - 同模型 effort 对照: HHEM 在 OpenAI/xAI 提供了同一基础模型的多个 effort/reasoning 端点。 o4-mini 是「原生推理」无法关,只能切 effort; GPT-5/5.1/5.2 是「推理可调」; Grok 4 Fast 是「reasoning 开关二选一 API」。
- 本页限定范围: HHEM 只测「英文摘要事实一致性」。本页结论应用到:英文 RAG、英文文档摘要、英文客服问答、英文翻译。 中文场景请参考 SuperCLUE 幻觉控制(见 幻觉率排行)。 数学/代码/Agent 场景请参考 数学推理 / 编程能力 / Agent 能力 排行。