AI 写论文 / 学术研究选什么 LLM?理科 / 文科 / 综述场景实测
学术写作和聊天 / 创作完全是两个游戏——它要的是能推导公式、能解释机理、能读完整本综述、并且不胡编参考文献的能力。本文用 MathArena 国际数学竞赛 + SuperCLUE 中文科学推理 + Vectara HHEM 摘要幻觉率 + 上下文窗口四个独立数据源交叉,分四档给出推荐。
一句话结论
- 综合最强——Gemini 3.1 Pro Preview(SuperCLUE 数学 92.44 全场第一 + 科学 81.71 + 幻觉 80.50,1M 上下文),$2 / $12,需代理。
- 理科推导 / 公式证明——GPT-5.5 (xhigh)(MathArena 82.9% 国际数学竞赛第一)或 Gemini 3.1 Pro(中文数学第一)。
- 国内综合最强——DeepSeek V4 Pro(中文数学 87.39 国内第一 + 科学 79.27 + 1M 上下文 + 幻觉 80.68),$0.435 / $0.87,注册即用。
- 学位论文 / 长综述——Claude Sonnet 4.6(1M 上下文 + 学术行文风格被业界共识为高质量),$3 / $15。
- 学生党性价比——DeepSeek V4 Flash(MathArena 60.7% 第 7、几乎追平 V4 Pro 的 60.9% + 1M 上下文 + 输出 $0.252),适合作业辅助、批量公式核对、文献摘要。
学术场景看哪四个维度
- 数学推理(数学 / 物理 / 经济 / 工程)——能不能解微分方程、推导力学公式、做统计计算。看 MathArena(国际数学竞赛)+ SuperCLUE 数学推理(中文场景)。两个榜有明显错位——MathArena 第 1 GPT-5.5 在 SuperCLUE 中文榜并非第一,反映中英文数学题风格差异。
- 科学推理(理化生 / 工程 / 实验设计)——能不能解释机理、设计对照、归纳实验结论。看 SuperCLUE 科学推理(满分 100)。
- 幻觉率(综述 / 文献引用 / 数据表)——写综述时模型会不会编参考文献、编不存在的论文标题、编实验数据。看 SuperCLUE 幻觉控制 + Vectara HHEM。
- 长上下文窗口——能不能一次性吞一篇 50 页 PDF、一整本教材、十几篇综述放一块对比。50 万 token+ 起步。
数据来源:MathArena.ai(2026-05-14 抓取)+ SuperCLUE 通用基准(2026年3月,2026-05-12)+ Vectara HHEM-2.3(May 11, 2026)+ 各厂商官方 API 价目表(2026-05-14 复核)。
综合榜:学术场景 Top 12
按"学术权重分"排序——SuperCLUE 数学 25% + 科学 30% + 幻觉控制 25% + 总分 20%。这是本场景视角排序,不是 SuperCLUE 官方榜。
| # | 模型 | 数学 | 科学 | 幻觉控制 | 总分 |
|---|---|---|---|---|---|
| 1 | GPT-5.4(xhigh) 海外 OpenAI | 88.89 | 84.15 | 85.43 | 72.48 |
| 2 | Claude-Opus-4.6(max) 海外 Anthropic | 85.71 | 85.37 | 82.95 | 77.02 |
| 3 | Gemini-3.1-Pro-Preview(high) 海外 Google | 92.44 | 81.71 | 80.50 | 76.69 |
| 4 | Gemini-3-Flash-Preview(high) 海外 Google | 85.71 | 81.71 | 82.37 | 68.84 |
| 5 | DeepSeek-V4-Pro(max) 国内 深度求索 | 87.39 | 79.27 | 80.68 | 70.98 |
| 6 | Doubao-Seed-2.0-pro-260215(high) 国内 字节跳动 | 84.87 | 80.49 | 79.41 | 71.53 |
| 7 | DeepSeek-V4-Flash(max) 国内 深度求索 | 89.08 | 79.01 | 75.67 | 68.82 |
| 8 | Qwen3.5-397B-A17B-Thinking 国内 阿里巴巴 | 84.87 | 75.61 | 84.39 | 64.48 |
| 9 | Grok-4.20-Beta-0309(Reasoning) 海外 X.AI | 85.71 | 78.05 | 77.89 | 66.07 |
| 10 | GLM-5 国内 智谱AI | 73.95 | 75.00 | 86.85 | 64.27 |
| 11 | MiMo-V2-Pro 国内 小米集团 | 84.03 | 74.39 | 73.80 | 60.67 |
| 12 | Kimi-K2.5-Thinking 国内 月之暗面 | 81.51 | 68.29 | 77.61 | 64.60 |
理科推导档:MathArena 国际数学竞赛 Top 12
对应"做数学题"的能力——MathArena 测的是 USAMO、Putnam 这类未公开赛题,避免训练数据污染。要做物理推导、动力学公式、数学证明、统计建模时看这个榜。
| # | 模型 | 正确率 | 单题成本 |
|---|---|---|---|
| 1 | GPT-5.5 (xhigh) OpenAI | 82.9% | $1.17 |
| 2 | GPT-5.4-Pro (xhigh) OpenAI | 79.7% | $14.25 |
| 3 | GPT-5.4 (xhigh) OpenAI | 70.1% | $1.31 |
| 4 | GPT-5.2 (xhigh) OpenAI | 66.5% | $0.94 |
| 5 | Gemini 3.1 Pro Preview Google | 64.8% | $0.63 |
| 6 | DeepSeek-v4-Pro (Max) DeepSeek | 60.9% | $0.79 |
| 7 | DeepSeek-v4-Flash (Max) DeepSeek | 60.7% | $0.08 |
| 8 | Kimi K2.6 (Think) Moonshot AI | 57.7% | $0.52 |
| 9 | GPT-5.2 (high) OpenAI | 57.1% | $0.71 |
| 10 | Claude-Opus-4.6 (High) Anthropic | 56.0% | $2.91 |
| 11 | Claude-Opus-4.7 (xhigh) Anthropic | 52.7% | $3.12 |
| 12 | Gemini 3 Pro (preview) Google | 51.2% | $0.78 |
关键观察:GPT-5.4-Pro 第 2(79.7%)单题成本 $14.25 远超第 1 GPT-5.5 的 $1.17——不是越贵越对。同时 Claude-Opus-4.7 第 11(52.7%)比 Claude-Opus-4.6 第 10(56.0%)退步,说明 Anthropic 新版本数学方向疑似走偏。
数学性价比子榜
MathArena 正确率 / 单题成本,得分越高代表"每花一美元能做对越多题"。学生党、批量做题、教学场景看这张:
| 模型 | 正确率 | 单题成本 | 分/$ |
|---|---|---|---|
| Grok 4.1 Fast (Reasoning) xAI | 42.4% | $0.03 | 1413 |
| DeepSeek-v3.2 (Think) DeepSeek | 43.8% | $0.03 | 1413 |
| DeepSeek-v3.2-Speciale DeepSeek | 49.4% | $0.05 | 1029 |
| DeepSeek-v4-Flash (Max) DeepSeek | 60.7% | $0.08 | 778 |
| Gemini 3.1 Pro Preview (low) Google | 47.8% | $0.07 | 724 |
| Step 3.5 Flash StepFun | 49.9% | $0.07 | 684 |
| GPT-5-mini (high) OpenAI | 42.0% | $0.12 | 350 |
| GLM 4.6 Z.ai | 44.7% | $0.16 | 279 |
DeepSeek V4 Flash 单题成本 $0.08——做 100 道高数题花不到 1 美元,正确率 60.7% 几乎追平 Pro 版的 60.9%,学生党无脑选这个。
长综述 / 学位论文档:上下文 ≥ 50 万
写硕博学位论文、整理多篇综述对比、把整本教材塞进去问问题——上下文窗口是硬约束。当代模型里 ≥ 50 万 token 的:
| 模型 | 上下文 | 输入价 | 输出价 | 国内可用 |
|---|---|---|---|---|
| Grok 4.1 Fast xAI | 2M | $0.2 | $0.5 | 需代理 |
| GPT-5.5 OpenAI | 1.1M | $5.00 | $30.00 | 需代理 |
| GPT-5.5 Pro OpenAI | 1.1M | $30.00 | $180.00 | 需代理 |
| GPT-5.4 OpenAI | 1.1M | $2.50 | $15.00 | 需代理 |
| Gemini 3.1 Pro Preview Google | 1M | $2.00 | $12.00 | 国内不稳 |
| DeepSeek V4 Pro DeepSeek | 1M | $0.43 | $0.87 | 国内可用 |
| DeepSeek V4 Flash DeepSeek | 1M | $0.13 | $0.25 | 国内可用 |
| MiMo-V2.5-Pro Xiaomi | 1M | $1.00 | $3.00 | 国内可用 |
| MiMo-V2.5 Xiaomi | 1M | $0.4 | $2.00 | 国内可用 |
| Gemini 3 Flash Preview Google | 1M | $0.5 | $3.00 | 国内不稳 |
| Gemini 3.1 Flash Lite Google | 1M | $0.25 | $1.50 | 国内不稳 |
| Llama 4 Maverick Meta | 1M | $0.15 | $0.6 | 需代理 |
| Claude Opus 4.7 Anthropic | 1M | $5.00 | $25.00 | 需代理 |
| Claude Sonnet 4.6 Anthropic | 1M | $3.00 | $15.00 | 需代理 |
| Grok 4.3 xAI | 1M | $1.25 | $2.50 | 需代理 |
| Qwen3.6 Plus Alibaba (阿里云百炼) | 1M | $0.33 | $1.95 | 国内可用 |
推荐:硕博论文综述用 Claude Sonnet 4.6(1M 上下文 + 学术行文风格在英文社区共识为最高);中文学位论文用 DeepSeek V4 Pro(1M 上下文 + 中文行文流畅 + 价格 1/3);课题资料整理用 Gemini 3.1 Pro(1M 上下文 + 数学/科学双强)。
五个细分场景的具体选型
- 理科论文(数学 / 物理 / 工程)——首选 Gemini 3.1 Pro Preview(SuperCLUE 数学 92.44 + 科学 81.71 + MathArena #5 64.8%)或 GPT-5.5 (xhigh)(MathArena #1 82.9%)。必须开 reasoning 模式,关掉的话数学正确率会掉 10-20 分。
- 文科论文(人文 / 社科 / 法学)——首选 Claude Opus 4.7(SuperCLUE 总分 77.02 全场第一 + 学术行文风格细腻),Claude Sonnet 4.6 性价比更高。文科要的不是数学推理,是引经据典 + 论证严密 + 语言精确。不要用 DeepSeek/Kimi 等国内模型写英文论文,中式英文痕迹明显。
- 文献综述 / 引文整理——首选 GPT-5.4(HHEM 7% + 综合实力强)或 DeepSeek V4 Pro(HHEM 8.6% + 1M 上下文一次塞 30 篇综述)。必须配合 Connected Papers / Google Scholar 验证——任何模型都会偶尔编出听起来很合理但根本不存在的论文。
- 数据分析报告 / 统计——首选 DeepSeek V4 Pro(代码生成 63.24 国内第一 + 数学 87.39 + 1M 上下文喂表格),结合 Code Interpreter 类工具。批量重复跑统计用 DeepSeek V4 Flash 性价比无敌。
- 教学辅助 / 作业答疑——首选 DeepSeek V4 Flash(MathArena 60.7% + $0.252 输出 + 国内免代理 + 1M 上下文)。学生党用这个连续跑 100 道题成本不到 $0.5,做题准确率追平 Pro 版。
学术场景五个最常见坑点
- 模型会编参考文献——这是学术使用 AI 最大的坑。所有模型(包括 GPT-5.4 HR 7%)都会偶尔编出"听起来很像真实论文"的引用:作者真实、标题合理、年份合理、期刊存在,但这篇论文根本不存在。对策:每条引用都必须去 Google Scholar / DOI 系统验证。
- "数学题对了"不代表"推导过程对"——MathArena 评的是最终答案。模型可能用错误推导得到对的答案(瞎蒙),尤其是国内开源模型在做选择题时这种情况频发。对策:让模型"分步推导"而非"直接给答案",并人工核对中间步骤。
- 中英文数学题表现不一致——本文的 MathArena 数据(国际竞赛)和 SuperCLUE 数学(中文场景)对同一模型可能错位。比如 DeepSeek V4 Flash SuperCLUE 数学 89.08(国内第 2)vs MathArena 60.7%(第 7)。原因:中文题语境、术语风格不同。对策:理科论文用中文写 → 看 SuperCLUE 数学;用英文写 → 看 MathArena。
- 长综述场景下"中段遗忘"普遍存在——尽管模型号称 1M 上下文,实际表现是"开头记得清、结尾记得清、中间 30% 容易遗漏"。对策:综述阅读时分段提问,每段不超过 50k token;最重要的论文放在 prompt 的开头或结尾。
- 免费版网页端不适合做学术——豆包 / Kimi / 通义 / DeepSeek 的免费网页端有上下文窗口限制(通常 32k-128k)、并发限速、长输出截断。要做严肃学术工作必须走 API 调用或付费版。
三步决策树
- 论文以中文还是英文写——中文 → 看 SuperCLUE 综合榜(Gemini 3.1 Pro / DeepSeek V4 Pro);英文 → 看 MathArena + Claude 系列(GPT-5.5 / Claude Sonnet 4.6 / Opus 4.7)。
- 能不能稳定走代理——能 → 上述首选不变;不能 → DeepSeek V4 Pro(综合)/ V4 Flash(教学)/ Kimi K2.6(长文献)。
- 单次需要喂多少资料——< 100k token → 任意;100k-500k → 排除 Kimi K2.6(262k);500k+ → 仅剩 Claude / DeepSeek V4 系列 / Gemini 3.x / Grok 4.x / MiMo / Qwen3.6 Plus。
相关阅读
- LLM 数学推理排行——SuperCLUE 中文数学 + MathArena 国际竞赛双视角
- LLM 长上下文排行——百万 token 时代的选型清单
- LLM 幻觉率排行——RAG / 引文场景的关键参考
- LLM 编程能力排行——数据分析 / 统计代码场景
- Gemini 3.1 Pro 详情——综合学术首选
- DeepSeek V4 Pro 详情——国内综合首选