LLM 数学推理排行:国内数学 vs 国际奥赛双视角
数学能力是 LLM 最硬的评测维度之一——答案对就是对,错就是错,没有模糊空间。 本页并列展示两份独立榜单: SuperCLUE 数学推理(中文场景数学题,覆盖国内课标与竞赛)和 MathArena.ai(国际数学奥赛/竞赛题,未公开题库防污染)。 两份榜单的测试语言、题型分布、难度结构完全不同,排名差异本身就是最有价值的信息。
"中文数学强"和"国际奥赛强"是两回事。 DeepSeek V4 Flash 在 SuperCLUE 数学排第 2(89.08),但在 MathArena 只拿到 60.7%—— 中文数学竞赛题和国际奥赛题的差距高达 28 个百分点。 反过来,GPT-5.5 在 MathArena 以 82.9% 排第一,但 3 月的 SuperCLUE 数据里根本没有它(4 月 23 日发布)。
Gemini 3.1 Pro Preview 是中文数学的绝对王者。 SuperCLUE 数学 92.44 分,比第二名 DeepSeek V4 Flash 高 3.36 分。 但它在 MathArena 只排第 5(64.8%),说明 Google 的中文数学调优做得非常深, 国际通用数学能力虽然也很强,但没有中文场景那么突出。
Claude 在数学上被严重低估——至少在中文场景里。 Claude Opus 4.6 在 SuperCLUE 数学 85.71 排第 5,但 MathArena 只有 56.0% 排第 10。 更诡异的是 Claude Opus 4.7(xhigh)在 MathArena 只有 52.7% 排第 11, 反而比 4.6 的 56.0% 还低—— Anthropic 的最新版本在数学竞赛题上疑似退步。
DeepSeek V4 Flash 在 MathArena 上追平了 Pro。 MathArena 上 DeepSeek V4 Pro(Max)60.9%,Flash(Max)60.7%,差距仅 0.2%。 但 Flash 的成本是 Pro 的 1/10($0.078 vs $0.79),数学性价比上 Flash 碾压 Pro。
SuperCLUE 数学推理 · Top 15
来源:superclueai.com, 2026年3月榜,抓取于 2026-05-12。SuperCLUE 的数学推理覆盖中小学竞赛、高考数学、大学基础数学等中文场景。 同分差 1 分内的模型视为并列。
| # | 模型 | 数学 | 国 |
|---|---|---|---|
| 1 | Gemini-3.1-Pro-Preview(high) Google | 92.44 | 🇺🇸 |
| 2 | DeepSeek-V4-Flash(max) 深度求索 | 89.08 | 🇨🇳 |
| 3 | GPT-5.4(xhigh) OpenAI | 88.89 | 🇺🇸 |
| 4 | DeepSeek-V4-Pro(max) 深度求索 | 87.39 | 🇨🇳 |
| 5 | Claude-Opus-4.6(max) Anthropic | 85.71 | 🇺🇸 |
| 6 | Gemini-3-Flash-Preview(high) Google | 85.71 | 🇺🇸 |
| 7 | Grok-4.20-Beta-0309(Reasoning) X.AI | 85.71 | 🇺🇸 |
| 8 | Doubao-Seed-2.0-pro-260215(high) 字节跳动 | 84.87 | 🇨🇳 |
| 9 | Qwen3.5-397B-A17B-Thinking 阿里巴巴 | 84.87 | 🇨🇳 |
| 10 | MiMo-V2-Pro 小米集团 | 84.03 | 🇨🇳 |
| 11 | Qwen3.5-122B-A10B-Thinking 阿里巴巴 | 82.35 | 🇨🇳 |
| 12 | Kimi-K2.5-Thinking 月之暗面 | 81.51 | 🇨🇳 |
| 13 | Step-3.5-Flash 阶跃星辰 | 80.67 | 🇨🇳 |
| 14 | gpt-oss-120b(high) OpenAI | 79.83 | 🇺🇸 |
| 15 | DeepSeek-V3.2-Thinking 深度求索 | 78.15 | 🇨🇳 |
Top 5 被 Google + DeepSeek + OpenAI + Anthropic 瓜分。 Gemini 3.1 Pro Preview(92.44)一枝独秀,DeepSeek V4 Flash(89.08)和 GPT-5.4(88.89)紧追其后, DeepSeek V4 Pro(87.39)和 Claude Opus 4.6(85.71)构成第二梯队。 前五名之间差距 6.73 分,在 SuperCLUE 的评分体系里已经是不小的鸿沟。
国内模型在中文数学上并不弱。 字节 Doubao Seed 2.0(84.87)、阿里 Qwen3.5 397B(84.87)、小米 MiMo V2(84.03) 都进入了前 11。这说明中文数学评测对国内厂商的调优是有明显正反馈的。
MathArena.ai · 国际数学竞赛 Top 15
来源:matharena.ai, 抓取于 2026-05-14。MathArena 用最新数学竞赛和奥赛题(USAMO、Putnam 风格), 每题跑 4 次取平均,避免训练数据污染。分数是正确率百分比。
| # | 模型 | 正确率 | 开源 |
|---|---|---|---|
| 1 | GPT-5.5 (xhigh) OpenAI | 82.9% | ❌ |
| 2 | GPT-5.4-Pro (xhigh) OpenAI | 79.7% | ❌ |
| 3 | GPT-5.4 (xhigh) OpenAI | 70.1% | ❌ |
| 4 | GPT-5.2 (xhigh) OpenAI | 66.5% | ❌ |
| 5 | Gemini 3.1 Pro Preview Google | 64.8% | ❌ |
| 6 | DeepSeek-v4-Pro (Max) DeepSeek | 60.9% | ✔️ |
| 7 | DeepSeek-v4-Flash (Max) DeepSeek | 60.7% | ✔️ |
| 8 | Kimi K2.6 (Think) Moonshot AI | 57.7% | ✔️ |
| 9 | GPT-5.2 (high) OpenAI | 57.1% | ❌ |
| 10 | Claude-Opus-4.6 (High) Anthropic | 56% | ❌ |
| 11 | Claude-Opus-4.7 (xhigh) Anthropic | 52.7% | ❌ |
| 12 | Gemini 3 Pro (preview) Google | 51.2% | ❌ |
| 13 | Gemini 3 Flash Google | 51% | ❌ |
| 14 | GLM 5.1 Z.ai | 50.9% | ✔️ |
| 15 | GLM 5 Z.ai | 50.3% | ✔️ |
OpenAI 在数学竞赛上形成了断档领先。 GPT-5.5(xhigh)82.9% 比第二名 GPT-5.4-Pro 的 79.7% 高 3.2 个百分点, 比第三名 GPT-5.4 的 70.1% 高出 12.8 个百分点。 前五名里有四个是 OpenAI——这不是"强一点",是"强一代"。
DeepSeek V4 Pro 和 Flash 在 MathArena 上几乎打平。 Pro(Max)60.9% vs Flash(Max)60.7%,差距 0.2% 在误差范围内。 这意味着如果你用 DeepSeek 做数学任务,Flash 就够了——它的成本只有 Pro 的 1/10。 Flash 也是 MathArena Top 10 里唯一上榜的开源模型。
Kimi K2.6(Think)是国内数学竞赛最强。 57.7% 排第 8,超过了 GPT-5.2(high)、Claude Opus 4.6 等老一代旗舰。 但和 OpenAI 的 GPT-5.5 相比,差距仍有 25.2 个百分点——国际数学竞赛上国内模型还有很长的路要走。
双榜交叉:哪些模型"偏科"
下面只列出同时在 SuperCLUE 数学前 15 和 MathArena 有数据的模型。 "偏差"列显示的是两份榜单的相对位置差异——不是分数直接对比(量纲不同), 而是看哪些模型在中文数学上排名高、在国际数学上排名低,或反过来。
| 模型 | SC 数学 | SC 排名 | MA 正确率 | MA 排名 | 偏差 |
|---|---|---|---|---|---|
| Gemini-3.1-Pro-Preview(high) | 92.44 | #1 | 64.8% | #5 | 中文偏强 |
| DeepSeek-V4-Flash(max) | 89.08 | #2 | 60.9% | #6 | 中文偏强 |
| GPT-5.4(xhigh) | 88.89 | #3 | 79.7% | #2 | 基本对齐 |
| DeepSeek-V4-Pro(max) | 87.39 | #4 | 60.9% | #6 | 基本对齐 |
| Claude-Opus-4.6(max) | 85.71 | #5 | 56% | #10 | 中文偏强 |
| Gemini-3-Flash-Preview(high) | 85.71 | #6 | 64.8% | #5 | 基本对齐 |
| Grok-4.20-Beta-0309(Reasoning) | 85.71 | #7 | 42.4% | #27 | 中文偏强 |
| Qwen3.5-397B-A17B-Thinking | 84.87 | #9 | 49.1% | #18 | 中文偏强 |
| Qwen3.5-122B-A10B-Thinking | 82.35 | #11 | 49.1% | #18 | 中文偏强 |
| Kimi-K2.5-Thinking | 81.51 | #12 | 57.7% | #8 | 国际偏强 |
| Step-3.5-Flash | 80.67 | #13 | 49.9% | #16 | 基本对齐 |
| DeepSeek-V3.2-Thinking | 78.15 | #15 | 60.9% | #6 | 国际偏强 |
DeepSeek V4 Flash 是典型的"中文数学偏强"。 SuperCLUE 数学第 2,MathArena 第 7——中文场景比国际场景高了 5 个位次。 这可能是因为 DeepSeek 的训练数据里中文数学竞赛/高考题比例高, 或者模型架构对中文数学表述的解析更敏感。
GPT-5.4 系列是"国际偏强"——但主要原因是 GPT-5.5 缺席 SuperCLUE。 GPT-5.4 在 SuperCLUE 排第 3,MathArena 也排第 3,看起来对齐。 但如果 GPT-5.5 参加了 SuperCLUE,GPT-5.4 的 SC 排名很可能会掉到第 4 或更低, 偏差方向就会反转。数据时效性在这里很关键。
Claude Opus 4.6 和 4.7 都是"国际偏弱"。 4.6 在 SuperCLUE 第 5,MathArena 第 10;4.7 在 MathArena 更是跌到第 11。 Anthropic 的模型在中文数学上表现不错,但在国际奥赛题上竞争力不足。 一个可能的解释是:Claude 的安全对齐策略限制了它在需要大胆假设、跳跃推理的数学竞赛题上的表现。
数学性价比(SuperCLUE 数学 / 输出价格)
用 SuperCLUE 数学分数除以每百万 token 输出价格,得到"每花一美元能买到多少中文数学能力"。 注意 MathArena 成本是按"每题"算的($0.02~$14),而 API 价格是按 token 算的,两者不可直接比较, 所以性价比只用 SuperCLUE + OpenRouter 价格计算。
| # | 模型 | 数学 | 输出价 | Math/$ |
|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash(max) 深度求索 | 89.08 | $0.87 | 102.4 |
| 2 | DeepSeek-V4-Pro(max) 深度求索 | 87.39 | $0.87 | 100.4 |
| 3 | DeepSeek-V3.2-Thinking 深度求索 | 78.15 | $0.87 | 89.8 |
| 4 | MiniMax-M2.7 稀宇科技 | 78.15 | $1.20 | 65.1 |
| 5 | Llama-4-Maverick-17B-128E-Instruct Meta | 38.66 | $0.60 | 64.4 |
| 6 | Grok-4.20-Beta-0309(Reasoning) X.AI | 85.71 | $2.50 | 34.3 |
| 7 | MiMo-V2-Pro 小米集团 | 84.03 | $3.00 | 28.0 |
| 8 | Kimi-K2.5-Thinking 月之暗面 | 81.51 | $3.50 | 23.3 |
| 9 | MiMo-V2-Flash 小米集团 | 69.75 | $3.00 | 23.3 |
| 10 | GLM-5 智谱AI | 73.95 | $3.50 | 21.1 |
| 11 | Mistral Large 3 Mistral AI | 48.74 | $3.00 | 16.2 |
| 12 | Qwen3.5-397B-A17B-Thinking 阿里巴巴 | 84.87 | $6.24 | 13.6 |
DeepSeek V4 Flash 的 Math/$ 达到 353.5,全场最高。 数学能力 89.08 排第二,输出价却只有 $0.252/M,性价比断崖领先。 做大批量数学解题、作业批改、题库生成时,Flash 是最务实的选择。
DeepSeek V4 Pro 的 Math/$ 只有 110.7,不到 Flash 的 1/3。 数学能力只比 Flash 高 1.8 分(87.39 vs 89.08),价格却贵了 11 倍($2.79 vs $0.252)。 除非你需要 Pro 的其他能力(如长上下文、更稳定的推理),数学任务上 Flash 完胜。
GPT-5.4 Nano 以 Math/$ 183.0 排第三,是 OpenAI 线里数学性价比最高的。 数学 78.15 虽不如旗舰,但 $0.427/M 的价格让它在批量任务里很有竞争力。 如果对数学准确率要求不是极致,Nano 是 GPT 家族里做数学题最划算的选择。
按场景选:5 个数学任务组合
看完榜单,这些坑别踩
1. "数学分高"不等于"不会算错"
SuperCLUE 数学 90 分的模型,仍然有 10% 的题会错。MathArena 82.9% 的 GPT-5.5, 意味着每 5 道题大概错 1 道。如果你的场景是财务核算、药物剂量计算、工程安全校验—— 任何"错不起"的场景,都不能让 LLM 做最终决策者,必须有人工复核。
2. 中文数学题和国际奥赛题差距巨大
本页最大的发现就是双榜排名差异。如果你做国内教育产品,看 SuperCLUE 就够了; 如果你做国际课程(IB、AP、A-Level)或科研数学,必须参考 MathArena。 拿着 SuperCLUE 排名去选国际数学辅导模型,或者反过来,都会选错。
3. "Thinking"模式对数学帮助大,但成本高
Kimi K2.6(Think)57.7% 比非 Think 版高很多,但 thinking 模式的 token 消耗通常是普通模式的 2-4 倍。 MathArena 显示 GPT-5.5(xhigh)每题成本 $1.17,而 GPT-5.2(high)只要 $0.71—— 能力差了 25 个百分点,成本差了 65%。按需开 thinking,不要一刀切。
4. 别忽视"上一代"模型
GPT-5.2(xhigh)在 MathArena 仍有 66.5% 排第 4,比 Gemini 3.1 Pro Preview 还高。 如果你的数学任务不需要最前沿能力,老一代旗舰(GPT-5.2、Claude Opus 4.6) 可能因为降价而性价比飙升。不要只看最新型号。
5. 开源模型在数学上正在快速追赶
DeepSeek V4 Flash(Max)60.7% 排 MathArena 第 7,GLM 5.1 50.9% 排第 14, 都已经接近或超过部分闭源旗舰。如果你的数据敏感不能上云, 本地部署 DeepSeek V4 Flash 做数学任务已经可用。 但注意:本地部署的硬件成本和运维成本要算进总账。
数据方法论
- SuperCLUE 数学推理:superclueai.com,2026年3月数据,2026-05-12抓取。 覆盖数学推理、逻辑推理、数值计算等中文场景。同分差 1 分内视为并列。
- MathArena.ai:matharena.ai/models,2026-05-14抓取。 基于未公开数学竞赛题,每题 4 次运行取平均,防训练数据污染。分数为正确率百分比。
- 价格数据:openrouter.ai/api/v1/models,2026-05-14 抓取。 单位 USD/百万 token。MathArena 成本是按"每题平均花费"计算,与 API 价格量纲不同,不可直接对比。
- AA Intelligence Index:artificialanalysis.ai,2026-05-12 抓取。 纯文本推理基准(GPQA、HLE、MMLU-Pro),与数学无直接关联,仅做能力相关性参考。
- 匹配规则:模型名通过 normalize() 做家族级粗匹配(去括号、去变体词、去空格)。 可能因命名差异导致个别模型匹配失败,缺失处标注"—"。
- 未做综合分:SuperCLUE 和 MathArena 的测试集、语言、量纲完全不同, 强行加权汇总会产生误导。本页保持双榜独立展示,让读者自己判断。