2026-05-15 · 场景化选型

AI 写论文 / 学术研究选什么 LLM？理科 / 文科 / 综述场景实测

学术写作和聊天 / 创作完全是两个游戏——它要的是能推导公式、能解释机理、能读完整本综述、并且不胡编参考文献的能力。本文用 MathArena 国际数学竞赛 + SuperCLUE 中文科学推理 + Vectara HHEM 摘要幻觉率 + 上下文窗口四个独立数据源交叉，分四档给出推荐。

一句话结论

综合最强——Gemini 3.1 Pro Preview（SuperCLUE 数学 92.44 全场第一 + 科学 81.71 + 幻觉 80.50，1M 上下文），$2 / $12，需代理。
理科推导 / 公式证明——GPT-5.5 (xhigh)（MathArena 82.9% 国际数学竞赛第一）或 Gemini 3.1 Pro（中文数学第一）。
国内综合最强——DeepSeek V4 Pro（中文数学 87.39 国内第一 + 科学 79.27 + 1M 上下文 + 幻觉 80.68），$0.435 / $0.87，注册即用。
学位论文 / 长综述——Claude Sonnet 4.6（1M 上下文 + 学术行文风格被业界共识为高质量），$3 / $15。
学生党性价比——DeepSeek V4 Flash（MathArena 60.7% 第 7、几乎追平 V4 Pro 的 60.9% + 1M 上下文 + 输出 $0.252），适合作业辅助、批量公式核对、文献摘要。

学术场景看哪四个维度

数学推理（数学 / 物理 / 经济 / 工程）——能不能解微分方程、推导力学公式、做统计计算。看 MathArena（国际数学竞赛）+ SuperCLUE 数学推理（中文场景）。两个榜有明显错位——MathArena 第 1 GPT-5.5 在 SuperCLUE 中文榜并非第一，反映中英文数学题风格差异。
科学推理（理化生 / 工程 / 实验设计）——能不能解释机理、设计对照、归纳实验结论。看 SuperCLUE 科学推理（满分 100）。
幻觉率（综述 / 文献引用 / 数据表）——写综述时模型会不会编参考文献、编不存在的论文标题、编实验数据。看 SuperCLUE 幻觉控制 + Vectara HHEM。
长上下文窗口——能不能一次性吞一篇 50 页 PDF、一整本教材、十几篇综述放一块对比。50 万 token+ 起步。

数据来源：MathArena.ai（2026-05-14 抓取）+ SuperCLUE 通用基准（2026年3月，2026-05-12）+ Vectara HHEM-2.3（May 11, 2026）+ 各厂商官方 API 价目表（2026-05-14 复核）。

综合榜：学术场景 Top 12

按"学术权重分"排序——SuperCLUE 数学 25% + 科学 30% + 幻觉控制 25% + 总分 20%。这是本场景视角排序，不是 SuperCLUE 官方榜。

#	模型	数学	科学	幻觉控制	总分
1	GPT-5.4(xhigh) 海外 OpenAI	88.89	84.15	85.43	72.48
2	Claude-Opus-4.6(max) 海外 Anthropic	85.71	85.37	82.95	77.02
3	Gemini-3.1-Pro-Preview(high) 海外 Google	92.44	81.71	80.50	76.69
4	Gemini-3-Flash-Preview(high) 海外 Google	85.71	81.71	82.37	68.84
5	DeepSeek-V4-Pro(max) 国内深度求索	87.39	79.27	80.68	70.98
6	Doubao-Seed-2.0-pro-260215(high) 国内字节跳动	84.87	80.49	79.41	71.53
7	DeepSeek-V4-Flash(max) 国内深度求索	89.08	79.01	75.67	68.82
8	Qwen3.5-397B-A17B-Thinking 国内阿里巴巴	84.87	75.61	84.39	64.48
9	Grok-4.20-Beta-0309(Reasoning) 海外 X.AI	85.71	78.05	77.89	66.07
10	GLM-5 国内智谱AI	73.95	75.00	86.85	64.27
11	MiMo-V2-Pro 国内小米集团	84.03	74.39	73.80	60.67
12	Kimi-K2.5-Thinking 国内月之暗面	81.51	68.29	77.61	64.60

理科推导档：MathArena 国际数学竞赛 Top 12

对应"做数学题"的能力——MathArena 测的是 USAMO、Putnam 这类未公开赛题，避免训练数据污染。要做物理推导、动力学公式、数学证明、统计建模时看这个榜。

#	模型	正确率	单题成本
1	GPT-5.5 (xhigh) OpenAI	82.9%	$1.17
2	GPT-5.4-Pro (xhigh) OpenAI	79.7%	$14.25
3	GPT-5.4 (xhigh) OpenAI	70.1%	$1.31
4	GPT-5.2 (xhigh) OpenAI	66.5%	$0.94
5	Gemini 3.1 Pro Preview Google	64.8%	$0.63
6	DeepSeek-v4-Pro (Max) DeepSeek	60.9%	$0.79
7	DeepSeek-v4-Flash (Max) DeepSeek	60.7%	$0.08
8	Kimi K2.6 (Think) Moonshot AI	57.7%	$0.52
9	GPT-5.2 (high) OpenAI	57.1%	$0.71
10	Claude-Opus-4.6 (High) Anthropic	56.0%	$2.91
11	Claude-Opus-4.7 (xhigh) Anthropic	52.7%	$3.12
12	Gemini 3 Pro (preview) Google	51.2%	$0.78

关键观察：GPT-5.4-Pro 第 2（79.7%）单题成本 $14.25 远超第 1 GPT-5.5 的 $1.17——不是越贵越对。同时 Claude-Opus-4.7 第 11（52.7%）比 Claude-Opus-4.6 第 10（56.0%）退步，说明 Anthropic 新版本数学方向疑似走偏。

数学性价比子榜

MathArena 正确率 / 单题成本，得分越高代表"每花一美元能做对越多题"。学生党、批量做题、教学场景看这张：

模型	正确率	单题成本	分/$
Grok 4.1 Fast (Reasoning) xAI	42.4%	$0.03	1413
DeepSeek-v3.2 (Think) DeepSeek	43.8%	$0.03	1413
DeepSeek-v3.2-Speciale DeepSeek	49.4%	$0.05	1029
DeepSeek-v4-Flash (Max) DeepSeek	60.7%	$0.08	778
Gemini 3.1 Pro Preview (low) Google	47.8%	$0.07	724
Step 3.5 Flash StepFun	49.9%	$0.07	684
GPT-5-mini (high) OpenAI	42.0%	$0.12	350
GLM 4.6 Z.ai	44.7%	$0.16	279

DeepSeek V4 Flash 单题成本 $0.08——做 100 道高数题花不到 1 美元，正确率 60.7% 几乎追平 Pro 版的 60.9%，学生党无脑选这个。

长综述 / 学位论文档：上下文 ≥ 50 万

写硕博学位论文、整理多篇综述对比、把整本教材塞进去问问题——上下文窗口是硬约束。当代模型里 ≥ 50 万 token 的：

模型	上下文	输入价	输出价	国内可用
Grok 4.1 Fast xAI	2M	$0.2	$0.5	需代理
GPT-5.5 OpenAI	1.1M	$5.00	$30.00	需代理
GPT-5.5 Pro OpenAI	1.1M	$30.00	$180.00	需代理
GPT-5.4 OpenAI	1.1M	$2.50	$15.00	需代理
Gemini 3.1 Pro Preview Google	1M	$2.00	$12.00	国内不稳
DeepSeek V4 Pro DeepSeek	1M	$0.43	$0.87	国内可用
DeepSeek V4 Flash DeepSeek	1M	$0.13	$0.25	国内可用
MiMo-V2.5-Pro Xiaomi	1M	$1.00	$3.00	国内可用
MiMo-V2.5 Xiaomi	1M	$0.4	$2.00	国内可用
Gemini 3 Flash Preview Google	1M	$0.5	$3.00	国内不稳
Gemini 3.1 Flash Lite Google	1M	$0.25	$1.50	国内不稳
Llama 4 Maverick Meta	1M	$0.15	$0.6	需代理
Claude Opus 4.7 Anthropic	1M	$5.00	$25.00	需代理
Claude Sonnet 4.6 Anthropic	1M	$3.00	$15.00	需代理
Grok 4.3 xAI	1M	$1.25	$2.50	需代理
Qwen3.6 Plus Alibaba (阿里云百炼)	1M	$0.33	$1.95	国内可用

推荐：硕博论文综述用 Claude Sonnet 4.6（1M 上下文 + 学术行文风格在英文社区共识为最高）；中文学位论文用 DeepSeek V4 Pro（1M 上下文 + 中文行文流畅 + 价格 1/3）；课题资料整理用 Gemini 3.1 Pro（1M 上下文 + 数学/科学双强）。

五个细分场景的具体选型

理科论文（数学 / 物理 / 工程）——首选 Gemini 3.1 Pro Preview（SuperCLUE 数学 92.44 + 科学 81.71 + MathArena #5 64.8%）或 GPT-5.5 (xhigh)（MathArena #1 82.9%）。必须开 reasoning 模式，关掉的话数学正确率会掉 10-20 分。
文科论文（人文 / 社科 / 法学）——首选 Claude Opus 4.7（SuperCLUE 总分 77.02 全场第一 + 学术行文风格细腻），Claude Sonnet 4.6 性价比更高。文科要的不是数学推理，是引经据典 + 论证严密 + 语言精确。不要用 DeepSeek/Kimi 等国内模型写英文论文，中式英文痕迹明显。
文献综述 / 引文整理——首选 GPT-5.4（HHEM 7% + 综合实力强）或 DeepSeek V4 Pro（HHEM 8.6% + 1M 上下文一次塞 30 篇综述）。必须配合 Connected Papers / Google Scholar 验证——任何模型都会偶尔编出听起来很合理但根本不存在的论文。
数据分析报告 / 统计——首选 DeepSeek V4 Pro（代码生成 63.24 国内第一 + 数学 87.39 + 1M 上下文喂表格），结合 Code Interpreter 类工具。批量重复跑统计用 DeepSeek V4 Flash 性价比无敌。
教学辅助 / 作业答疑——首选 DeepSeek V4 Flash（MathArena 60.7% + $0.252 输出 + 国内免代理 + 1M 上下文）。学生党用这个连续跑 100 道题成本不到 $0.5，做题准确率追平 Pro 版。

学术场景五个最常见坑点

模型会编参考文献——这是学术使用 AI 最大的坑。所有模型（包括 GPT-5.4 HR 7%）都会偶尔编出"听起来很像真实论文"的引用：作者真实、标题合理、年份合理、期刊存在，但这篇论文根本不存在。对策：每条引用都必须去 Google Scholar / DOI 系统验证。
"数学题对了"不代表"推导过程对"——MathArena 评的是最终答案。模型可能用错误推导得到对的答案（瞎蒙），尤其是国内开源模型在做选择题时这种情况频发。对策：让模型"分步推导"而非"直接给答案"，并人工核对中间步骤。
中英文数学题表现不一致——本文的 MathArena 数据（国际竞赛）和 SuperCLUE 数学（中文场景）对同一模型可能错位。比如 DeepSeek V4 Flash SuperCLUE 数学 89.08（国内第 2）vs MathArena 60.7%（第 7）。原因：中文题语境、术语风格不同。对策：理科论文用中文写 → 看 SuperCLUE 数学；用英文写 → 看 MathArena。
长综述场景下"中段遗忘"普遍存在——尽管模型号称 1M 上下文，实际表现是"开头记得清、结尾记得清、中间 30% 容易遗漏"。对策：综述阅读时分段提问，每段不超过 50k token；最重要的论文放在 prompt 的开头或结尾。
免费版网页端不适合做学术——豆包 / Kimi / 通义 / DeepSeek 的免费网页端有上下文窗口限制（通常 32k-128k）、并发限速、长输出截断。要做严肃学术工作必须走 API 调用或付费版。

三步决策树

论文以中文还是英文写——中文 → 看 SuperCLUE 综合榜（Gemini 3.1 Pro / DeepSeek V4 Pro）；英文 → 看 MathArena + Claude 系列（GPT-5.5 / Claude Sonnet 4.6 / Opus 4.7）。
能不能稳定走代理——能 → 上述首选不变；不能 → DeepSeek V4 Pro（综合）/ V4 Flash（教学）/ Kimi K2.6（长文献）。
单次需要喂多少资料——< 100k token → 任意；100k-500k → 排除 Kimi K2.6（262k）；500k+ → 仅剩 Claude / DeepSeek V4 系列 / Gemini 3.x / Grok 4.x / MiMo / Qwen3.6 Plus。

LLM 数学推理排行——SuperCLUE 中文数学 + MathArena 国际竞赛双视角
LLM 长上下文排行——百万 token 时代的选型清单
LLM 幻觉率排行——RAG / 引文场景的关键参考
LLM 编程能力排行——数据分析 / 统计代码场景
Gemini 3.1 Pro 详情——综合学术首选
DeepSeek V4 Pro 详情——国内综合首选