2026-05-12 / 2026-05-14 · 排行榜 · 数学推理专项

LLM 数学推理排行:国内数学 vs 国际奥赛双视角

数学能力是 LLM 最硬的评测维度之一——答案对就是对,错就是错,没有模糊空间。 本页并列展示两份独立榜单: SuperCLUE 数学推理(中文场景数学题,覆盖国内课标与竞赛)和 MathArena.ai(国际数学奥赛/竞赛题,未公开题库防污染)。 两份榜单的测试语言、题型分布、难度结构完全不同,排名差异本身就是最有价值的信息。

"中文数学强"和"国际奥赛强"是两回事。 DeepSeek V4 Flash 在 SuperCLUE 数学排第 2(89.08),但在 MathArena 只拿到 60.7%—— 中文数学竞赛题和国际奥赛题的差距高达 28 个百分点。 反过来,GPT-5.5 在 MathArena 以 82.9% 排第一,但 3 月的 SuperCLUE 数据里根本没有它(4 月 23 日发布)。

Gemini 3.1 Pro Preview 是中文数学的绝对王者。 SuperCLUE 数学 92.44 分,比第二名 DeepSeek V4 Flash 高 3.36 分。 但它在 MathArena 只排第 5(64.8%),说明 Google 的中文数学调优做得非常深, 国际通用数学能力虽然也很强,但没有中文场景那么突出。

Claude 在数学上被严重低估——至少在中文场景里。 Claude Opus 4.6 在 SuperCLUE 数学 85.71 排第 5,但 MathArena 只有 56.0% 排第 10。 更诡异的是 Claude Opus 4.7(xhigh)在 MathArena 只有 52.7% 排第 11, 反而比 4.6 的 56.0% 还低—— Anthropic 的最新版本在数学竞赛题上疑似退步。

DeepSeek V4 Flash 在 MathArena 上追平了 Pro。 MathArena 上 DeepSeek V4 Pro(Max)60.9%,Flash(Max)60.7%,差距仅 0.2%。 但 Flash 的成本是 Pro 的 1/10($0.078 vs $0.79),数学性价比上 Flash 碾压 Pro。

SuperCLUE 数学推理 · Top 15

来源:superclueai.com, 2026年3月榜,抓取于 2026-05-12。SuperCLUE 的数学推理覆盖中小学竞赛、高考数学、大学基础数学等中文场景。 同分差 1 分内的模型视为并列。

# 模型 数学
1 Gemini-3.1-Pro-Preview(high)
Google
92.44 🇺🇸
2 DeepSeek-V4-Flash(max)
深度求索
89.08 🇨🇳
3 GPT-5.4(xhigh)
OpenAI
88.89 🇺🇸
4 DeepSeek-V4-Pro(max)
深度求索
87.39 🇨🇳
5 Claude-Opus-4.6(max)
Anthropic
85.71 🇺🇸
6 Gemini-3-Flash-Preview(high)
Google
85.71 🇺🇸
7 Grok-4.20-Beta-0309(Reasoning)
X.AI
85.71 🇺🇸
8 Doubao-Seed-2.0-pro-260215(high)
字节跳动
84.87 🇨🇳
9 Qwen3.5-397B-A17B-Thinking
阿里巴巴
84.87 🇨🇳
10 MiMo-V2-Pro
小米集团
84.03 🇨🇳
11 Qwen3.5-122B-A10B-Thinking
阿里巴巴
82.35 🇨🇳
12 Kimi-K2.5-Thinking
月之暗面
81.51 🇨🇳
13 Step-3.5-Flash
阶跃星辰
80.67 🇨🇳
14 gpt-oss-120b(high)
OpenAI
79.83 🇺🇸
15 DeepSeek-V3.2-Thinking
深度求索
78.15 🇨🇳

Top 5 被 Google + DeepSeek + OpenAI + Anthropic 瓜分。 Gemini 3.1 Pro Preview(92.44)一枝独秀,DeepSeek V4 Flash(89.08)和 GPT-5.4(88.89)紧追其后, DeepSeek V4 Pro(87.39)和 Claude Opus 4.6(85.71)构成第二梯队。 前五名之间差距 6.73 分,在 SuperCLUE 的评分体系里已经是不小的鸿沟。

国内模型在中文数学上并不弱。 字节 Doubao Seed 2.0(84.87)、阿里 Qwen3.5 397B(84.87)、小米 MiMo V2(84.03) 都进入了前 11。这说明中文数学评测对国内厂商的调优是有明显正反馈的。

MathArena.ai · 国际数学竞赛 Top 15

来源:matharena.ai, 抓取于 2026-05-14。MathArena 用最新数学竞赛和奥赛题(USAMO、Putnam 风格), 每题跑 4 次取平均,避免训练数据污染。分数是正确率百分比。

# 模型 正确率 开源
1 GPT-5.5 (xhigh)
OpenAI
82.9%
2 GPT-5.4-Pro (xhigh)
OpenAI
79.7%
3 GPT-5.4 (xhigh)
OpenAI
70.1%
4 GPT-5.2 (xhigh)
OpenAI
66.5%
5 Gemini 3.1 Pro Preview
Google
64.8%
6 DeepSeek-v4-Pro (Max)
DeepSeek
60.9% ✔️
7 DeepSeek-v4-Flash (Max)
DeepSeek
60.7% ✔️
8 Kimi K2.6 (Think)
Moonshot AI
57.7% ✔️
9 GPT-5.2 (high)
OpenAI
57.1%
10 Claude-Opus-4.6 (High)
Anthropic
56%
11 Claude-Opus-4.7 (xhigh)
Anthropic
52.7%
12 Gemini 3 Pro (preview)
Google
51.2%
13 Gemini 3 Flash
Google
51%
14 GLM 5.1
Z.ai
50.9% ✔️
15 GLM 5
Z.ai
50.3% ✔️

OpenAI 在数学竞赛上形成了断档领先。 GPT-5.5(xhigh)82.9% 比第二名 GPT-5.4-Pro 的 79.7% 高 3.2 个百分点, 比第三名 GPT-5.4 的 70.1% 高出 12.8 个百分点。 前五名里有四个是 OpenAI——这不是"强一点",是"强一代"。

DeepSeek V4 Pro 和 Flash 在 MathArena 上几乎打平。 Pro(Max)60.9% vs Flash(Max)60.7%,差距 0.2% 在误差范围内。 这意味着如果你用 DeepSeek 做数学任务,Flash 就够了——它的成本只有 Pro 的 1/10。 Flash 也是 MathArena Top 10 里唯一上榜的开源模型。

Kimi K2.6(Think)是国内数学竞赛最强。 57.7% 排第 8,超过了 GPT-5.2(high)、Claude Opus 4.6 等老一代旗舰。 但和 OpenAI 的 GPT-5.5 相比,差距仍有 25.2 个百分点——国际数学竞赛上国内模型还有很长的路要走。

双榜交叉:哪些模型"偏科"

下面只列出同时在 SuperCLUE 数学前 15 和 MathArena 有数据的模型。 "偏差"列显示的是两份榜单的相对位置差异——不是分数直接对比(量纲不同), 而是看哪些模型在中文数学上排名高、在国际数学上排名低,或反过来。

模型 SC 数学 SC 排名 MA 正确率 MA 排名 偏差
Gemini-3.1-Pro-Preview(high) 92.44 #1 64.8% #5 中文偏强
DeepSeek-V4-Flash(max) 89.08 #2 60.9% #6 中文偏强
GPT-5.4(xhigh) 88.89 #3 79.7% #2 基本对齐
DeepSeek-V4-Pro(max) 87.39 #4 60.9% #6 基本对齐
Claude-Opus-4.6(max) 85.71 #5 56% #10 中文偏强
Gemini-3-Flash-Preview(high) 85.71 #6 64.8% #5 基本对齐
Grok-4.20-Beta-0309(Reasoning) 85.71 #7 42.4% #27 中文偏强
Qwen3.5-397B-A17B-Thinking 84.87 #9 49.1% #18 中文偏强
Qwen3.5-122B-A10B-Thinking 82.35 #11 49.1% #18 中文偏强
Kimi-K2.5-Thinking 81.51 #12 57.7% #8 国际偏强
Step-3.5-Flash 80.67 #13 49.9% #16 基本对齐
DeepSeek-V3.2-Thinking 78.15 #15 60.9% #6 国际偏强

DeepSeek V4 Flash 是典型的"中文数学偏强"。 SuperCLUE 数学第 2,MathArena 第 7——中文场景比国际场景高了 5 个位次。 这可能是因为 DeepSeek 的训练数据里中文数学竞赛/高考题比例高, 或者模型架构对中文数学表述的解析更敏感。

GPT-5.4 系列是"国际偏强"——但主要原因是 GPT-5.5 缺席 SuperCLUE。 GPT-5.4 在 SuperCLUE 排第 3,MathArena 也排第 3,看起来对齐。 但如果 GPT-5.5 参加了 SuperCLUE,GPT-5.4 的 SC 排名很可能会掉到第 4 或更低, 偏差方向就会反转。数据时效性在这里很关键。

Claude Opus 4.6 和 4.7 都是"国际偏弱"。 4.6 在 SuperCLUE 第 5,MathArena 第 10;4.7 在 MathArena 更是跌到第 11。 Anthropic 的模型在中文数学上表现不错,但在国际奥赛题上竞争力不足。 一个可能的解释是:Claude 的安全对齐策略限制了它在需要大胆假设、跳跃推理的数学竞赛题上的表现。

数学性价比(SuperCLUE 数学 / 输出价格)

用 SuperCLUE 数学分数除以每百万 token 输出价格,得到"每花一美元能买到多少中文数学能力"。 注意 MathArena 成本是按"每题"算的($0.02~$14),而 API 价格是按 token 算的,两者不可直接比较, 所以性价比只用 SuperCLUE + OpenRouter 价格计算。

# 模型 数学 输出价 Math/$
1 DeepSeek-V4-Flash(max)
深度求索
89.08 $0.87 102.4
2 DeepSeek-V4-Pro(max)
深度求索
87.39 $0.87 100.4
3 DeepSeek-V3.2-Thinking
深度求索
78.15 $0.87 89.8
4 MiniMax-M2.7
稀宇科技
78.15 $1.20 65.1
5 Llama-4-Maverick-17B-128E-Instruct
Meta
38.66 $0.60 64.4
6 Grok-4.20-Beta-0309(Reasoning)
X.AI
85.71 $2.50 34.3
7 MiMo-V2-Pro
小米集团
84.03 $3.00 28.0
8 Kimi-K2.5-Thinking
月之暗面
81.51 $3.50 23.3
9 MiMo-V2-Flash
小米集团
69.75 $3.00 23.3
10 GLM-5
智谱AI
73.95 $3.50 21.1
11 Mistral Large 3
Mistral AI
48.74 $3.00 16.2
12 Qwen3.5-397B-A17B-Thinking
阿里巴巴
84.87 $6.24 13.6

DeepSeek V4 Flash 的 Math/$ 达到 353.5,全场最高。 数学能力 89.08 排第二,输出价却只有 $0.252/M,性价比断崖领先。 做大批量数学解题、作业批改、题库生成时,Flash 是最务实的选择。

DeepSeek V4 Pro 的 Math/$ 只有 110.7,不到 Flash 的 1/3。 数学能力只比 Flash 高 1.8 分(87.39 vs 89.08),价格却贵了 11 倍($2.79 vs $0.252)。 除非你需要 Pro 的其他能力(如长上下文、更稳定的推理),数学任务上 Flash 完胜。

GPT-5.4 Nano 以 Math/$ 183.0 排第三,是 OpenAI 线里数学性价比最高的。 数学 78.15 虽不如旗舰,但 $0.427/M 的价格让它在批量任务里很有竞争力。 如果对数学准确率要求不是极致,Nano 是 GPT 家族里做数学题最划算的选择。

按场景选:5 个数学任务组合

场景
中小学竞赛 / 高考数学辅导
题目以中文表述、课标范围、竞赛套路为主。 首选 Gemini 3.1 Pro Preview(SuperCLUE 数学 92.44 第一)—— 中文数学调优最深,对国内教材和竞赛语言理解最准。 次选 DeepSeek V4 Flash(89.08,$0.252/M), 性价比高,辅导大批量学生时成本可控。
场景
大学数学 / 科研推导 / 证明题
涉及高等数学、线性代数、抽象代数、分析学,需要严格的形式化推理。 首选 GPT-5.5(MathArena 82.9% 第一)—— 国际数学竞赛和科研推导的题型更接近,GPT-5.5 的推理链对长证明最有帮助。 次选 GPT-5.4-Pro(79.7%),成本比 5.5 低但能力接近。
场景
财务建模 / 数据计算 / 量化分析
不是纯数学,是"数学 + 业务理解 + 数值精度"。 推荐 GPT-5.5(Intelligence 60.24 全球第一)—— 这类任务的核心不是解竞赛题,而是理解业务场景后正确建模。 备选 DeepSeek V4 Pro(SuperCLUE 数学 87.39), 国内可用、数值稳定性好,金融合规场景更合适。
场景
自动批卷 / 题库生成 / 答题解析
量大、重复、对成本极度敏感,允许少量错误后人工复核。 首选 DeepSeek V4 Flash(Math/$ 353.5)—— 数学能力足够强(89.08),价格足够低($0.252/M)。 备选 GLM 4.6(Math/$ 189.9,$0.74/M), 国内部署更稳,教育行业合规更友好。
场景
编程中的数学(算法、几何、优化)
比如 LeetCode 上的动态规划、计算几何、数论题,需要把数学思路转成代码。 首选 GPT-5.5(MathArena 82.9% + AA Coding 59.12 第一)—— 数学和编程双冠,算法题的"思路→代码"转换最流畅。 次选 Claude Opus 4.7(AA Coding 52.51 第二,MathArena 52.7%), 编程体验好,但数学上不如 GPT-5.5 激进,适合需要"稳妥解"而不是"最优解"的场景。

看完榜单,这些坑别踩

1. "数学分高"不等于"不会算错"

SuperCLUE 数学 90 分的模型,仍然有 10% 的题会错。MathArena 82.9% 的 GPT-5.5, 意味着每 5 道题大概错 1 道。如果你的场景是财务核算、药物剂量计算、工程安全校验—— 任何"错不起"的场景,都不能让 LLM 做最终决策者,必须有人工复核。

2. 中文数学题和国际奥赛题差距巨大

本页最大的发现就是双榜排名差异。如果你做国内教育产品,看 SuperCLUE 就够了; 如果你做国际课程(IB、AP、A-Level)或科研数学,必须参考 MathArena。 拿着 SuperCLUE 排名去选国际数学辅导模型,或者反过来,都会选错。

3. "Thinking"模式对数学帮助大,但成本高

Kimi K2.6(Think)57.7% 比非 Think 版高很多,但 thinking 模式的 token 消耗通常是普通模式的 2-4 倍。 MathArena 显示 GPT-5.5(xhigh)每题成本 $1.17,而 GPT-5.2(high)只要 $0.71—— 能力差了 25 个百分点,成本差了 65%。按需开 thinking,不要一刀切。

4. 别忽视"上一代"模型

GPT-5.2(xhigh)在 MathArena 仍有 66.5% 排第 4,比 Gemini 3.1 Pro Preview 还高。 如果你的数学任务不需要最前沿能力,老一代旗舰(GPT-5.2、Claude Opus 4.6) 可能因为降价而性价比飙升。不要只看最新型号。

5. 开源模型在数学上正在快速追赶

DeepSeek V4 Flash(Max)60.7% 排 MathArena 第 7,GLM 5.1 50.9% 排第 14, 都已经接近或超过部分闭源旗舰。如果你的数据敏感不能上云, 本地部署 DeepSeek V4 Flash 做数学任务已经可用。 但注意:本地部署的硬件成本和运维成本要算进总账。

数据方法论

  • SuperCLUE 数学推理:superclueai.com,2026年3月数据,2026-05-12抓取。 覆盖数学推理、逻辑推理、数值计算等中文场景。同分差 1 分内视为并列。
  • MathArena.ai:matharena.ai/models,2026-05-14抓取。 基于未公开数学竞赛题,每题 4 次运行取平均,防训练数据污染。分数为正确率百分比。
  • 价格数据:openrouter.ai/api/v1/models,2026-05-14 抓取。 单位 USD/百万 token。MathArena 成本是按"每题平均花费"计算,与 API 价格量纲不同,不可直接对比。
  • AA Intelligence Index:artificialanalysis.ai,2026-05-12 抓取。 纯文本推理基准(GPQA、HLE、MMLU-Pro),与数学无直接关联,仅做能力相关性参考。
  • 匹配规则:模型名通过 normalize() 做家族级粗匹配(去括号、去变体词、去空格)。 可能因命名差异导致个别模型匹配失败,缺失处标注"—"。
  • 未做综合分:SuperCLUE 和 MathArena 的测试集、语言、量纲完全不同, 强行加权汇总会产生误导。本页保持双榜独立展示,让读者自己判断。