2026-05-15 · 场景化选型

AI 写论文 / 学术研究选什么 LLM?理科 / 文科 / 综述场景实测

学术写作和聊天 / 创作完全是两个游戏——它要的是能推导公式、能解释机理、能读完整本综述、并且不胡编参考文献的能力。本文用 MathArena 国际数学竞赛 + SuperCLUE 中文科学推理 + Vectara HHEM 摘要幻觉率 + 上下文窗口四个独立数据源交叉,分四档给出推荐。

一句话结论

  • 综合最强——Gemini 3.1 Pro Preview(SuperCLUE 数学 92.44 全场第一 + 科学 81.71 + 幻觉 80.50,1M 上下文),$2 / $12,需代理。
  • 理科推导 / 公式证明——GPT-5.5 (xhigh)(MathArena 82.9% 国际数学竞赛第一)或 Gemini 3.1 Pro(中文数学第一)。
  • 国内综合最强——DeepSeek V4 Pro(中文数学 87.39 国内第一 + 科学 79.27 + 1M 上下文 + 幻觉 80.68),$0.435 / $0.87,注册即用。
  • 学位论文 / 长综述——Claude Sonnet 4.6(1M 上下文 + 学术行文风格被业界共识为高质量),$3 / $15。
  • 学生党性价比——DeepSeek V4 Flash(MathArena 60.7% 第 7、几乎追平 V4 Pro 的 60.9% + 1M 上下文 + 输出 $0.252),适合作业辅助、批量公式核对、文献摘要。

学术场景看哪四个维度

  1. 数学推理(数学 / 物理 / 经济 / 工程)——能不能解微分方程、推导力学公式、做统计计算。看 MathArena(国际数学竞赛)+ SuperCLUE 数学推理(中文场景)。两个榜有明显错位——MathArena 第 1 GPT-5.5 在 SuperCLUE 中文榜并非第一,反映中英文数学题风格差异。
  2. 科学推理(理化生 / 工程 / 实验设计)——能不能解释机理、设计对照、归纳实验结论。看 SuperCLUE 科学推理(满分 100)。
  3. 幻觉率(综述 / 文献引用 / 数据表)——写综述时模型会不会编参考文献、编不存在的论文标题、编实验数据。看 SuperCLUE 幻觉控制 + Vectara HHEM。
  4. 长上下文窗口——能不能一次性吞一篇 50 页 PDF、一整本教材、十几篇综述放一块对比。50 万 token+ 起步。

数据来源:MathArena.ai(2026-05-14 抓取)+ SuperCLUE 通用基准(2026年3月,2026-05-12)+ Vectara HHEM-2.3(May 11, 2026)+ 各厂商官方 API 价目表(2026-05-14 复核)。

综合榜:学术场景 Top 12

按"学术权重分"排序——SuperCLUE 数学 25% + 科学 30% + 幻觉控制 25% + 总分 20%。这是本场景视角排序,不是 SuperCLUE 官方榜

# 模型 数学 科学 幻觉控制 总分
1
GPT-5.4(xhigh)
海外 OpenAI
88.89 84.15 85.43 72.48
2
Claude-Opus-4.6(max)
海外 Anthropic
85.71 85.37 82.95 77.02
3
Gemini-3.1-Pro-Preview(high)
海外 Google
92.44 81.71 80.50 76.69
4
Gemini-3-Flash-Preview(high)
海外 Google
85.71 81.71 82.37 68.84
5
DeepSeek-V4-Pro(max)
国内 深度求索
87.39 79.27 80.68 70.98
6
Doubao-Seed-2.0-pro-260215(high)
国内 字节跳动
84.87 80.49 79.41 71.53
7
DeepSeek-V4-Flash(max)
国内 深度求索
89.08 79.01 75.67 68.82
8
Qwen3.5-397B-A17B-Thinking
国内 阿里巴巴
84.87 75.61 84.39 64.48
9
Grok-4.20-Beta-0309(Reasoning)
海外 X.AI
85.71 78.05 77.89 66.07
10
GLM-5
国内 智谱AI
73.95 75.00 86.85 64.27
11
MiMo-V2-Pro
国内 小米集团
84.03 74.39 73.80 60.67
12
Kimi-K2.5-Thinking
国内 月之暗面
81.51 68.29 77.61 64.60

理科推导档:MathArena 国际数学竞赛 Top 12

对应"做数学题"的能力——MathArena 测的是 USAMO、Putnam 这类未公开赛题,避免训练数据污染。要做物理推导、动力学公式、数学证明、统计建模时看这个榜。

# 模型 正确率 单题成本
1
GPT-5.5 (xhigh)
OpenAI
82.9% $1.17
2
GPT-5.4-Pro (xhigh)
OpenAI
79.7% $14.25
3
GPT-5.4 (xhigh)
OpenAI
70.1% $1.31
4
GPT-5.2 (xhigh)
OpenAI
66.5% $0.94
5
Gemini 3.1 Pro Preview
Google
64.8% $0.63
6
DeepSeek-v4-Pro (Max)
DeepSeek
60.9% $0.79
7
DeepSeek-v4-Flash (Max)
DeepSeek
60.7% $0.08
8
Kimi K2.6 (Think)
Moonshot AI
57.7% $0.52
9
GPT-5.2 (high)
OpenAI
57.1% $0.71
10
Claude-Opus-4.6 (High)
Anthropic
56.0% $2.91
11
Claude-Opus-4.7 (xhigh)
Anthropic
52.7% $3.12
12
Gemini 3 Pro (preview)
Google
51.2% $0.78

关键观察:GPT-5.4-Pro 第 2(79.7%)单题成本 $14.25 远超第 1 GPT-5.5 的 $1.17——不是越贵越对。同时 Claude-Opus-4.7 第 11(52.7%)比 Claude-Opus-4.6 第 10(56.0%)退步,说明 Anthropic 新版本数学方向疑似走偏。

数学性价比子榜

MathArena 正确率 / 单题成本,得分越高代表"每花一美元能做对越多题"。学生党、批量做题、教学场景看这张:

模型 正确率 单题成本 分/$
Grok 4.1 Fast (Reasoning)
xAI
42.4% $0.03 1413
DeepSeek-v3.2 (Think)
DeepSeek
43.8% $0.03 1413
DeepSeek-v3.2-Speciale
DeepSeek
49.4% $0.05 1029
DeepSeek-v4-Flash (Max)
DeepSeek
60.7% $0.08 778
Gemini 3.1 Pro Preview (low)
Google
47.8% $0.07 724
Step 3.5 Flash
StepFun
49.9% $0.07 684
GPT-5-mini (high)
OpenAI
42.0% $0.12 350
GLM 4.6
Z.ai
44.7% $0.16 279

DeepSeek V4 Flash 单题成本 $0.08——做 100 道高数题花不到 1 美元,正确率 60.7% 几乎追平 Pro 版的 60.9%,学生党无脑选这个

长综述 / 学位论文档:上下文 ≥ 50 万

写硕博学位论文、整理多篇综述对比、把整本教材塞进去问问题——上下文窗口是硬约束。当代模型里 ≥ 50 万 token 的:

模型 上下文 输入价 输出价 国内可用
Grok 4.1 Fast
xAI
2M $0.2 $0.5 需代理
GPT-5.5
OpenAI
1.1M $5.00 $30.00 需代理
GPT-5.5 Pro
OpenAI
1.1M $30.00 $180.00 需代理
GPT-5.4
OpenAI
1.1M $2.50 $15.00 需代理
Gemini 3.1 Pro Preview
Google
1M $2.00 $12.00 国内不稳
DeepSeek V4 Pro
DeepSeek
1M $0.43 $0.87 国内可用
DeepSeek V4 Flash
DeepSeek
1M $0.13 $0.25 国内可用
MiMo-V2.5-Pro
Xiaomi
1M $1.00 $3.00 国内可用
MiMo-V2.5
Xiaomi
1M $0.4 $2.00 国内可用
Gemini 3 Flash Preview
Google
1M $0.5 $3.00 国内不稳
Gemini 3.1 Flash Lite
Google
1M $0.25 $1.50 国内不稳
Llama 4 Maverick
Meta
1M $0.15 $0.6 需代理
Claude Opus 4.7
Anthropic
1M $5.00 $25.00 需代理
Claude Sonnet 4.6
Anthropic
1M $3.00 $15.00 需代理
Grok 4.3
xAI
1M $1.25 $2.50 需代理
Qwen3.6 Plus
Alibaba (阿里云百炼)
1M $0.33 $1.95 国内可用

推荐:硕博论文综述用 Claude Sonnet 4.6(1M 上下文 + 学术行文风格在英文社区共识为最高);中文学位论文用 DeepSeek V4 Pro(1M 上下文 + 中文行文流畅 + 价格 1/3);课题资料整理用 Gemini 3.1 Pro(1M 上下文 + 数学/科学双强)。

五个细分场景的具体选型

  1. 理科论文(数学 / 物理 / 工程)——首选 Gemini 3.1 Pro Preview(SuperCLUE 数学 92.44 + 科学 81.71 + MathArena #5 64.8%)或 GPT-5.5 (xhigh)(MathArena #1 82.9%)。必须开 reasoning 模式,关掉的话数学正确率会掉 10-20 分。
  2. 文科论文(人文 / 社科 / 法学)——首选 Claude Opus 4.7(SuperCLUE 总分 77.02 全场第一 + 学术行文风格细腻),Claude Sonnet 4.6 性价比更高。文科要的不是数学推理,是引经据典 + 论证严密 + 语言精确。不要用 DeepSeek/Kimi 等国内模型写英文论文,中式英文痕迹明显。
  3. 文献综述 / 引文整理——首选 GPT-5.4(HHEM 7% + 综合实力强)或 DeepSeek V4 Pro(HHEM 8.6% + 1M 上下文一次塞 30 篇综述)。必须配合 Connected Papers / Google Scholar 验证——任何模型都会偶尔编出听起来很合理但根本不存在的论文。
  4. 数据分析报告 / 统计——首选 DeepSeek V4 Pro(代码生成 63.24 国内第一 + 数学 87.39 + 1M 上下文喂表格),结合 Code Interpreter 类工具。批量重复跑统计用 DeepSeek V4 Flash 性价比无敌。
  5. 教学辅助 / 作业答疑——首选 DeepSeek V4 Flash(MathArena 60.7% + $0.252 输出 + 国内免代理 + 1M 上下文)。学生党用这个连续跑 100 道题成本不到 $0.5,做题准确率追平 Pro 版。

学术场景五个最常见坑点

  1. 模型会编参考文献——这是学术使用 AI 最大的坑。所有模型(包括 GPT-5.4 HR 7%)都会偶尔编出"听起来很像真实论文"的引用:作者真实、标题合理、年份合理、期刊存在,但这篇论文根本不存在对策:每条引用都必须去 Google Scholar / DOI 系统验证。
  2. "数学题对了"不代表"推导过程对"——MathArena 评的是最终答案。模型可能用错误推导得到对的答案(瞎蒙),尤其是国内开源模型在做选择题时这种情况频发。对策:让模型"分步推导"而非"直接给答案",并人工核对中间步骤。
  3. 中英文数学题表现不一致——本文的 MathArena 数据(国际竞赛)和 SuperCLUE 数学(中文场景)对同一模型可能错位。比如 DeepSeek V4 Flash SuperCLUE 数学 89.08(国内第 2)vs MathArena 60.7%(第 7)。原因:中文题语境、术语风格不同。对策:理科论文用中文写 → 看 SuperCLUE 数学;用英文写 → 看 MathArena。
  4. 长综述场景下"中段遗忘"普遍存在——尽管模型号称 1M 上下文,实际表现是"开头记得清、结尾记得清、中间 30% 容易遗漏"。对策:综述阅读时分段提问,每段不超过 50k token;最重要的论文放在 prompt 的开头或结尾。
  5. 免费版网页端不适合做学术——豆包 / Kimi / 通义 / DeepSeek 的免费网页端有上下文窗口限制(通常 32k-128k)、并发限速、长输出截断。要做严肃学术工作必须走 API 调用或付费版。

三步决策树

  1. 论文以中文还是英文写——中文 → 看 SuperCLUE 综合榜(Gemini 3.1 Pro / DeepSeek V4 Pro);英文 → 看 MathArena + Claude 系列(GPT-5.5 / Claude Sonnet 4.6 / Opus 4.7)。
  2. 能不能稳定走代理——能 → 上述首选不变;不能 → DeepSeek V4 Pro(综合)/ V4 Flash(教学)/ Kimi K2.6(长文献)。
  3. 单次需要喂多少资料——< 100k token → 任意;100k-500k → 排除 Kimi K2.6(262k);500k+ → 仅剩 Claude / DeepSeek V4 系列 / Gemini 3.x / Grok 4.x / MiMo / Qwen3.6 Plus。