2026-05-12 / 2026-05-14 · 排行榜 · 数学推理专项

LLM 数学推理排行：国内数学 vs 国际奥赛双视角

数学能力是 LLM 最硬的评测维度之一——答案对就是对，错就是错，没有模糊空间。本页并列展示两份独立榜单： SuperCLUE 数学推理（中文场景数学题，覆盖国内课标与竞赛）和 MathArena.ai（国际数学奥赛/竞赛题，未公开题库防污染）。两份榜单的测试语言、题型分布、难度结构完全不同，排名差异本身就是最有价值的信息。

"中文数学强"和"国际奥赛强"是两回事。 DeepSeek V4 Flash 在 SuperCLUE 数学排第 2（89.08），但在 MathArena 只拿到 60.7%—— 中文数学竞赛题和国际奥赛题的差距高达 28 个百分点。反过来，GPT-5.5 在 MathArena 以 82.9% 排第一，但 3 月的 SuperCLUE 数据里根本没有它（4 月 23 日发布）。

Gemini 3.1 Pro Preview 是中文数学的绝对王者。 SuperCLUE 数学 92.44 分，比第二名 DeepSeek V4 Flash 高 3.36 分。但它在 MathArena 只排第 5（64.8%），说明 Google 的中文数学调优做得非常深，国际通用数学能力虽然也很强，但没有中文场景那么突出。

Claude 在数学上被严重低估——至少在中文场景里。 Claude Opus 4.6 在 SuperCLUE 数学 85.71 排第 5，但 MathArena 只有 56.0% 排第 10。更诡异的是 Claude Opus 4.7（xhigh）在 MathArena 只有 52.7% 排第 11，反而比 4.6 的 56.0% 还低—— Anthropic 的最新版本在数学竞赛题上疑似退步。

DeepSeek V4 Flash 在 MathArena 上追平了 Pro。 MathArena 上 DeepSeek V4 Pro（Max）60.9%，Flash（Max）60.7%，差距仅 0.2%。但 Flash 的成本是 Pro 的 1/10（$0.078 vs $0.79），数学性价比上 Flash 碾压 Pro。

SuperCLUE 数学推理 · Top 15

来源：superclueai.com， 2026年3月榜，抓取于 2026-05-12。SuperCLUE 的数学推理覆盖中小学竞赛、高考数学、大学基础数学等中文场景。同分差 1 分内的模型视为并列。

#	模型	数学	MathArena	AA 智能	输出价	国
1	Gemini-3.1-Pro-Preview(high) Google	92.44	64.8% #5	57.2	$12.00	🇺🇸
2	DeepSeek-V4-Flash(max) 深度求索	89.08	60.9% #6	51.5	$0.87	🇨🇳
3	GPT-5.4(xhigh) OpenAI	88.89	79.7% #2	48.9	$15.00	🇺🇸
4	DeepSeek-V4-Pro(max) 深度求索	87.39	60.9% #6	51.5	$0.87	🇨🇳
5	Claude-Opus-4.6(max) Anthropic	85.71	56% #10	57.3	$25.00	🇺🇸
6	Gemini-3-Flash-Preview(high) Google	85.71	64.8% #5	57.2	$12.00	🇺🇸
7	Grok-4.20-Beta-0309(Reasoning) X.AI	85.71	42.4% #27	53.2	$2.50	🇺🇸
8	Doubao-Seed-2.0-pro-260215(high) 字节跳动	84.87	—	—	—	🇨🇳
9	Qwen3.5-397B-A17B-Thinking 阿里巴巴	84.87	49.1% #18	51.8	$6.24	🇨🇳
10	MiMo-V2-Pro 小米集团	84.03	—	53.8	$3.00	🇨🇳
11	Qwen3.5-122B-A10B-Thinking 阿里巴巴	82.35	49.1% #18	51.8	$6.24	🇨🇳
12	Kimi-K2.5-Thinking 月之暗面	81.51	57.7% #8	53.9	$3.50	🇨🇳
13	Step-3.5-Flash 阶跃星辰	80.67	49.9% #16	—	—	🇨🇳
14	gpt-oss-120b(high) OpenAI	79.83	—	—	—	🇺🇸
15	DeepSeek-V3.2-Thinking 深度求索	78.15	60.9% #6	51.5	$0.87	🇨🇳

Top 5 被 Google + DeepSeek + OpenAI + Anthropic 瓜分。 Gemini 3.1 Pro Preview（92.44）一枝独秀，DeepSeek V4 Flash（89.08）和 GPT-5.4（88.89）紧追其后， DeepSeek V4 Pro（87.39）和 Claude Opus 4.6（85.71）构成第二梯队。前五名之间差距 6.73 分，在 SuperCLUE 的评分体系里已经是不小的鸿沟。

国内模型在中文数学上并不弱。 字节 Doubao Seed 2.0（84.87）、阿里 Qwen3.5 397B（84.87）、小米 MiMo V2（84.03）都进入了前 11。这说明中文数学评测对国内厂商的调优是有明显正反馈的。

MathArena.ai · 国际数学竞赛 Top 15

来源：matharena.ai，抓取于 2026-05-14。MathArena 用最新数学竞赛和奥赛题（USAMO、Putnam 风格），每题跑 4 次取平均，避免训练数据污染。分数是正确率百分比。

#	模型	正确率	成本/题	开源
1	GPT-5.5 (xhigh) OpenAI	82.9%	$1.17	❌
2	GPT-5.4-Pro (xhigh) OpenAI	79.7%	$14.25	❌
3	GPT-5.4 (xhigh) OpenAI	70.1%	$1.31	❌
4	GPT-5.2 (xhigh) OpenAI	66.5%	$0.94	❌
5	Gemini 3.1 Pro Preview Google	64.8%	$0.63	❌
6	DeepSeek-v4-Pro (Max) DeepSeek	60.9%	$0.79	✔️
7	DeepSeek-v4-Flash (Max) DeepSeek	60.7%	$0.08	✔️
8	Kimi K2.6 (Think) Moonshot AI	57.7%	$0.52	✔️
9	GPT-5.2 (high) OpenAI	57.1%	$0.71	❌
10	Claude-Opus-4.6 (High) Anthropic	56%	$2.91	❌
11	Claude-Opus-4.7 (xhigh) Anthropic	52.7%	$3.12	❌
12	Gemini 3 Pro (preview) Google	51.2%	$0.78	❌
13	Gemini 3 Flash Google	51%	$0.24	❌
14	GLM 5.1 Z.ai	50.9%	$0.61	✔️
15	GLM 5 Z.ai	50.3%	$0.36	✔️

OpenAI 在数学竞赛上形成了断档领先。 GPT-5.5（xhigh）82.9% 比第二名 GPT-5.4-Pro 的 79.7% 高 3.2 个百分点，比第三名 GPT-5.4 的 70.1% 高出 12.8 个百分点。前五名里有四个是 OpenAI——这不是"强一点"，是"强一代"。

DeepSeek V4 Pro 和 Flash 在 MathArena 上几乎打平。 Pro（Max）60.9% vs Flash（Max）60.7%，差距 0.2% 在误差范围内。这意味着如果你用 DeepSeek 做数学任务，Flash 就够了——它的成本只有 Pro 的 1/10。 Flash 也是 MathArena Top 10 里唯一上榜的开源模型。

Kimi K2.6（Think）是国内数学竞赛最强。 57.7% 排第 8，超过了 GPT-5.2（high）、Claude Opus 4.6 等老一代旗舰。但和 OpenAI 的 GPT-5.5 相比，差距仍有 25.2 个百分点——国际数学竞赛上国内模型还有很长的路要走。

双榜交叉：哪些模型"偏科"

下面只列出同时在 SuperCLUE 数学前 15 和 MathArena 有数据的模型。 "偏差"列显示的是两份榜单的相对位置差异——不是分数直接对比（量纲不同），而是看哪些模型在中文数学上排名高、在国际数学上排名低，或反过来。

模型	SC 数学	SC 排名	MA 正确率	MA 排名	偏差
Gemini-3.1-Pro-Preview(high)	92.44	#1	64.8%	#5	中文偏强
DeepSeek-V4-Flash(max)	89.08	#2	60.9%	#6	中文偏强
GPT-5.4(xhigh)	88.89	#3	79.7%	#2	基本对齐
DeepSeek-V4-Pro(max)	87.39	#4	60.9%	#6	基本对齐
Claude-Opus-4.6(max)	85.71	#5	56%	#10	中文偏强
Gemini-3-Flash-Preview(high)	85.71	#6	64.8%	#5	基本对齐
Grok-4.20-Beta-0309(Reasoning)	85.71	#7	42.4%	#27	中文偏强
Qwen3.5-397B-A17B-Thinking	84.87	#9	49.1%	#18	中文偏强
Qwen3.5-122B-A10B-Thinking	82.35	#11	49.1%	#18	中文偏强
Kimi-K2.5-Thinking	81.51	#12	57.7%	#8	国际偏强
Step-3.5-Flash	80.67	#13	49.9%	#16	基本对齐
DeepSeek-V3.2-Thinking	78.15	#15	60.9%	#6	国际偏强

DeepSeek V4 Flash 是典型的"中文数学偏强"。 SuperCLUE 数学第 2，MathArena 第 7——中文场景比国际场景高了 5 个位次。这可能是因为 DeepSeek 的训练数据里中文数学竞赛/高考题比例高，或者模型架构对中文数学表述的解析更敏感。

GPT-5.4 系列是"国际偏强"——但主要原因是 GPT-5.5 缺席 SuperCLUE。 GPT-5.4 在 SuperCLUE 排第 3，MathArena 也排第 3，看起来对齐。但如果 GPT-5.5 参加了 SuperCLUE，GPT-5.4 的 SC 排名很可能会掉到第 4 或更低，偏差方向就会反转。数据时效性在这里很关键。

Claude Opus 4.6 和 4.7 都是"国际偏弱"。 4.6 在 SuperCLUE 第 5，MathArena 第 10；4.7 在 MathArena 更是跌到第 11。 Anthropic 的模型在中文数学上表现不错，但在国际奥赛题上竞争力不足。一个可能的解释是：Claude 的安全对齐策略限制了它在需要大胆假设、跳跃推理的数学竞赛题上的表现。

数学性价比（SuperCLUE 数学 / 输出价格）

用 SuperCLUE 数学分数除以每百万 token 输出价格，得到"每花一美元能买到多少中文数学能力"。注意 MathArena 成本是按"每题"算的（$0.02~$14），而 API 价格是按 token 算的，两者不可直接比较，所以性价比只用 SuperCLUE + OpenRouter 价格计算。

#	模型	数学	输出价	Math/$
1	DeepSeek-V4-Flash(max) 深度求索	89.08	$0.87	102.4
2	DeepSeek-V4-Pro(max) 深度求索	87.39	$0.87	100.4
3	DeepSeek-V3.2-Thinking 深度求索	78.15	$0.87	89.8
4	MiniMax-M2.7 稀宇科技	78.15	$1.20	65.1
5	Llama-4-Maverick-17B-128E-Instruct Meta	38.66	$0.60	64.4
6	Grok-4.20-Beta-0309(Reasoning) X.AI	85.71	$2.50	34.3
7	MiMo-V2-Pro 小米集团	84.03	$3.00	28.0
8	Kimi-K2.5-Thinking 月之暗面	81.51	$3.50	23.3
9	MiMo-V2-Flash 小米集团	69.75	$3.00	23.3
10	GLM-5 智谱AI	73.95	$3.50	21.1
11	Mistral Large 3 Mistral AI	48.74	$3.00	16.2
12	Qwen3.5-397B-A17B-Thinking 阿里巴巴	84.87	$6.24	13.6

DeepSeek V4 Flash 的 Math/$ 达到 353.5，全场最高。 数学能力 89.08 排第二，输出价却只有 $0.252/M，性价比断崖领先。做大批量数学解题、作业批改、题库生成时，Flash 是最务实的选择。

DeepSeek V4 Pro 的 Math/$ 只有 110.7，不到 Flash 的 1/3。 数学能力只比 Flash 高 1.8 分（87.39 vs 89.08），价格却贵了 11 倍（$2.79 vs $0.252）。除非你需要 Pro 的其他能力（如长上下文、更稳定的推理），数学任务上 Flash 完胜。

GPT-5.4 Nano 以 Math/$ 183.0 排第三，是 OpenAI 线里数学性价比最高的。 数学 78.15 虽不如旗舰，但 $0.427/M 的价格让它在批量任务里很有竞争力。如果对数学准确率要求不是极致，Nano 是 GPT 家族里做数学题最划算的选择。

场景

中小学竞赛 / 高考数学辅导

题目以中文表述、课标范围、竞赛套路为主。首选 Gemini 3.1 Pro Preview（SuperCLUE 数学 92.44 第一）—— 中文数学调优最深，对国内教材和竞赛语言理解最准。次选 DeepSeek V4 Flash（89.08，$0.252/M），性价比高，辅导大批量学生时成本可控。

场景

大学数学 / 科研推导 / 证明题

涉及高等数学、线性代数、抽象代数、分析学，需要严格的形式化推理。首选 GPT-5.5（MathArena 82.9% 第一）—— 国际数学竞赛和科研推导的题型更接近，GPT-5.5 的推理链对长证明最有帮助。次选 GPT-5.4-Pro（79.7%），成本比 5.5 低但能力接近。

场景

财务建模 / 数据计算 / 量化分析

不是纯数学，是"数学 + 业务理解 + 数值精度"。推荐 GPT-5.5（Intelligence 60.24 全球第一）—— 这类任务的核心不是解竞赛题，而是理解业务场景后正确建模。备选 DeepSeek V4 Pro（SuperCLUE 数学 87.39），国内可用、数值稳定性好，金融合规场景更合适。

场景

自动批卷 / 题库生成 / 答题解析

量大、重复、对成本极度敏感，允许少量错误后人工复核。首选 DeepSeek V4 Flash（Math/$ 353.5）—— 数学能力足够强（89.08），价格足够低（$0.252/M）。备选 GLM 4.6（Math/$ 189.9，$0.74/M），国内部署更稳，教育行业合规更友好。

场景

编程中的数学（算法、几何、优化）

比如 LeetCode 上的动态规划、计算几何、数论题，需要把数学思路转成代码。首选 GPT-5.5（MathArena 82.9% + AA Coding 59.12 第一）—— 数学和编程双冠，算法题的"思路→代码"转换最流畅。次选 Claude Opus 4.7（AA Coding 52.51 第二，MathArena 52.7%），编程体验好，但数学上不如 GPT-5.5 激进，适合需要"稳妥解"而不是"最优解"的场景。

看完榜单，这些坑别踩

1. "数学分高"不等于"不会算错"

SuperCLUE 数学 90 分的模型，仍然有 10% 的题会错。MathArena 82.9% 的 GPT-5.5，意味着每 5 道题大概错 1 道。如果你的场景是财务核算、药物剂量计算、工程安全校验—— 任何"错不起"的场景，都不能让 LLM 做最终决策者，必须有人工复核。

2. 中文数学题和国际奥赛题差距巨大

本页最大的发现就是双榜排名差异。如果你做国内教育产品，看 SuperCLUE 就够了；如果你做国际课程（IB、AP、A-Level）或科研数学，必须参考 MathArena。拿着 SuperCLUE 排名去选国际数学辅导模型，或者反过来，都会选错。

3. "Thinking"模式对数学帮助大，但成本高

Kimi K2.6（Think）57.7% 比非 Think 版高很多，但 thinking 模式的 token 消耗通常是普通模式的 2-4 倍。 MathArena 显示 GPT-5.5（xhigh）每题成本 $1.17，而 GPT-5.2（high）只要 $0.71—— 能力差了 25 个百分点，成本差了 65%。按需开 thinking，不要一刀切。

4. 别忽视"上一代"模型

GPT-5.2（xhigh）在 MathArena 仍有 66.5% 排第 4，比 Gemini 3.1 Pro Preview 还高。如果你的数学任务不需要最前沿能力，老一代旗舰（GPT-5.2、Claude Opus 4.6）可能因为降价而性价比飙升。不要只看最新型号。

5. 开源模型在数学上正在快速追赶

DeepSeek V4 Flash（Max）60.7% 排 MathArena 第 7，GLM 5.1 50.9% 排第 14，都已经接近或超过部分闭源旗舰。如果你的数据敏感不能上云，本地部署 DeepSeek V4 Flash 做数学任务已经可用。但注意：本地部署的硬件成本和运维成本要算进总账。

数据方法论

SuperCLUE 数学推理：superclueai.com，2026年3月数据，2026-05-12抓取。覆盖数学推理、逻辑推理、数值计算等中文场景。同分差 1 分内视为并列。
MathArena.ai：matharena.ai/models，2026-05-14抓取。基于未公开数学竞赛题，每题 4 次运行取平均，防训练数据污染。分数为正确率百分比。
价格数据：openrouter.ai/api/v1/models，2026-05-14 抓取。单位 USD/百万 token。MathArena 成本是按"每题平均花费"计算，与 API 价格量纲不同，不可直接对比。
AA Intelligence Index：artificialanalysis.ai，2026-05-12 抓取。纯文本推理基准（GPQA、HLE、MMLU-Pro），与数学无直接关联，仅做能力相关性参考。
匹配规则：模型名通过 normalize() 做家族级粗匹配（去括号、去变体词、去空格）。可能因命名差异导致个别模型匹配失败，缺失处标注"—"。
未做综合分：SuperCLUE 和 MathArena 的测试集、语言、量纲完全不同，强行加权汇总会产生误导。本页保持双榜独立展示，让读者自己判断。