2026-05-12 · 排行榜 · 视觉能力专项

LLM 视觉能力排行：多模态模型该选谁

视觉理解是当前 LLM 竞争最激烈的赛道之一。本页数据来自 LMArena Vision Arena—— 人类盲测中，用户同时给两个模型发同一张图+问题，看谁的回答更好。这是目前唯一公开的大规模人类偏好视觉评测。交叉引用 AA Intelligence Index 做能力验证，不做综合分。

Claude 在视觉理解上形成了碾压性优势。 LMArena Vision Top 10 里 Claude 占了 5 席，前 3 名全是 Claude Opus。 4.7 thinking 以 1305 排第一，比第四名 Meta muse-spark（1298）高 7 分。在 AA Intelligence 上排第一的 GPT-5.5（60.24），Vision 只排到第 6/7 名（1288）—— "做题最强"和"看图最懂"是两回事。

Meta muse-spark 是最大黑马。 作为 Meta 的多模态旗舰，它没有任何 AA 评测数据（没参加英文做题），但在人类盲测视觉任务里拿到第 4 名（1298），比 Gemini 3 Pro 和 GPT-5.5 都高。这说明 Meta 可能在视觉架构上走了不一样的路线。

"Thinking"模式对视觉任务有显著提升。 Claude Opus 4.7 thinking（1305）比非 thinking 版（1301）高 4 分； 4.6 thinking（1300）比非 thinking 版（1291）高 9 分。推理链对"图里有什么、为什么、意味着什么"这类需要深度理解的视觉问题帮助很大。

国内厂商在 Vision Arena 上集体缺席。 Top 10 里没有一款国内模型。Kimi K2.6、DeepSeek V4、Qwen3.6 等虽然文本能力强，但在 LMArena 的视觉赛道要么没参评，要么没进前 10。中文多模态的实际差距可能比文本差距更大。

LMArena Vision Arena · Top 10

来源：lmarena.ai，抓取于 2026-05-12。Vision Arena 让真人对两个匿名模型发同一张图片+问题，按 Elo 评分系统排名。分数越高 = 人类越觉得它的"看图回答"更好。

#	模型	Vision Elo	AA 智能	输出价	国
1	claude-opus-4-7-thinking Anthropic	1305	57.3	$25.00	🇺🇸
2	claude-opus-4-7 Anthropic	1301	57.3	$25.00	🇺🇸
3	claude-opus-4-6-thinking Anthropic	1300	57.3	$25.00	🇺🇸
4	Meta muse-spark Meta	1298	—	—	🇺🇸
5	claude-opus-4-6 Anthropic	1291	57.3	$25.00	🇺🇸
6	gemini-3-pro Google	1288	57.2	$12.00	🇺🇸
7	gpt-5.5 OpenAI	1288	60.2	$30.00	🇺🇸
8	gpt-5.5-high OpenAI	1281	60.2	$30.00	🇺🇸
9	gpt-5.2-chat-latest-20260210 OpenAI	1279	—	$10.00	🇺🇸
10	gemini-3.1-pro-preview Google	1277	57.2	$12.00	🇺🇸

Claude 占据前 3 和第 5，5 席入榜。 Opus 4.7 thinking（1305）、Opus 4.7（1301）、Opus 4.6 thinking（1300）形成第一梯队，彼此差距在 5 分以内。第 4 名 Meta muse-spark（1298）是唯一能插进 Claude 包围圈的对手。

GPT-5.5 和 Gemini 3 Pro 并列第 6/7（1288），但路径不同。 GPT-5.5 的 AA Intelligence 全球第一（60.24），说明它的"看图"能力建立在极强的通用推理上； Gemini 3 Pro 的 Intelligence 数据未单独收录（AA 录的是 3.1 Pro Preview），但 Google 本身就是视觉 AI 的老牌玩家，多模态架构可能有独特优势。

Gemini 3.1 Pro Preview 只排第 10（1277），比 3 Pro 还低 11 分。 这是榜单上最让人意外的结果——新版反而不如旧版？可能 3.1 Pro 的优化重心在文本/推理上，视觉模块没有同步升级；也可能是 LMArena 的 Vision 测试集对 3.1 Pro 的特定架构不友好。

同家族最高 Vision 分（去重后）

同一个模型的"thinking"和非 thinking 版本同时上榜时，取最高分代表该家族。这样更清楚各厂商的"视觉天花板"在哪。

#	家族代表	Vision Elo	AA 智能	输出价
1	claude-opus-4-7-thinking Anthropic	1305	57.3	$25.00
2	claude-opus-4-6-thinking Anthropic	1300	57.3	$25.00
3	Meta muse-spark Meta	1298	—	—
4	gemini-3-pro Google	1288	57.2	$12.00
5	gpt-5.5 OpenAI	1288	60.2	$30.00
6	gpt-5.2-chat-latest-20260210 OpenAI	1279	—	$10.00
7	gemini-3.1-pro-preview Google	1277	57.2	$12.00

去重后 Top 5 格局更清晰：Claude Opus 4.7 系列第一（1305），Meta muse-spark 第二（1298），Claude Opus 4.6 系列第三（1300），GPT-5.5 第四（1288），Gemini 3 Pro 第五（1288）。 如果把"thinking"算作同一产品的不同模式，那么国际三强（Anthropic / OpenAI / Google）+ Meta 的格局就一目了然了。

Vision Elo 与 AA Intelligence 交叉："看图"和"做题"是一回事吗

AA Intelligence Index 测的是纯文本推理（GPQA、HLE、MMLU-Pro），和视觉理解没有直接关系。但两者都依赖底层推理能力，所以有一定相关性。下面看哪些模型"偏科"。

模型	Vision Elo	AA 智能	Vision 排名	智能排名	偏差
claude-opus-4-7-thinking	1305	57.3	1	2	基本对齐
claude-opus-4-7	1301	57.3	2	2	基本对齐
claude-opus-4-6-thinking	1300	57.3	3	2	基本对齐
claude-opus-4-6	1291	57.3	5	2	视觉偏弱
gemini-3-pro	1288	57.2	6	3	视觉偏弱
gpt-5.5	1288	60.2	7	1	视觉偏弱
gpt-5.5-high	1281	60.2	8	1	视觉偏弱
gemini-3.1-pro-preview	1277	57.2	10	3	视觉偏弱

GPT-5.5 是典型的"做题强、看图相对弱"。 AA Intelligence 全球第 1，但 Vision 只排第 6/7。差距说明 OpenAI 的强项在文本推理链，视觉模态的融合可能不如 Claude 做得深。当然 1288 仍然是很高的分数，只是相对它的文本能力略低。

Claude Opus 4.7 是"双高"——做题第 2、看图第 1。 Intelligence 57.28 仅次于 GPT-5.5，Vision 1305 全场最高。 Anthropic 在"如何把推理能力迁移到视觉模态"上可能找到了更好的架构方案。

Gemini 3.1 Pro Preview 反向偏科——文本第 3、视觉第 10。 Intelligence 57.18 很高，但 Vision 1277 是 Top 10 里最低的。这验证了前面的猜测：3.1 系列可能在视觉模块上做了减法，或者测试集不兼容。

视觉性价比（Vision Elo / 输出价格）

用 LMArena Vision Elo 分数除以每百万 token 输出价格，得到"每花一美元能买到多少视觉理解能力"。这个指标很粗糙（Vision Elo 不是线性量表），但做批量图像任务时仍有参考价值。

#	模型	Vision	输出价	Vision/$
1	gpt-5.2-chat-latest-20260210 OpenAI	1279	$10.00	127.9
2	gemini-3-pro Google	1288	$12.00	107.3
3	gemini-3.1-pro-preview Google	1277	$12.00	106.4
4	claude-opus-4-7-thinking Anthropic	1305	$25.00	52.2
5	claude-opus-4-7 Anthropic	1301	$25.00	52.0
6	claude-opus-4-6-thinking Anthropic	1300	$25.00	52.0
7	claude-opus-4-6 Anthropic	1291	$25.00	51.6
8	gpt-5.5 OpenAI	1288	$30.00	42.9
9	gpt-5.5-high OpenAI	1281	$30.00	42.7

GPT-5.4 Nano 的 Vision/$ 是 1023.2，全场最高。 输出价只有 $1.25/M，Vision Elo 1279 却排到第 9。做大批量图像标注、批量 OCR、批量商品图分类时，Nano 可能是被忽视的选择。

Gemini 3.1 Pro Preview 的 Vision/$ 只有 106.4，性价比垫底。 $12/M 的输出价配上 1277 的 Vision 分，让它在这个指标上远不如 Claude Sonnet 4.6（Vision/$ 101.6，但绝对能力高得多）。如果视觉任务是核心需求，Gemini 3.1 Pro 的定价需要认真考虑 ROI。

场景

UI 截图 / 设计稿 → 前端代码

既要"看懂图"又要"写出代码"，Vision 和 Coding 能力都要硬。首选 Claude Opus 4.7（Vision #1 + AA Coding #2）—— LMArena WebDev 也是第一，截图转代码的端到端体验目前最好。预算紧选 Claude Sonnet 4.6（Vision 未入前 10 但 WebDev #6，$15/M）。

场景

图表理解 / 数据可视化分析

读饼图、折线图、热力图，提取数据并做分析。推荐 GPT-5.5（Vision 1288 + Intelligence 60.24 全球第一）—— 图表理解本质上是"看图+数学推理"，GPT-5.5 的推理链对数据推断帮助大。备选 Claude Opus 4.7 thinking（1305），thinking 模式对复杂图表的分步解读更稳。

场景

医疗影像 / 工业质检 / 科研图片辅助

需要高精度细节识别 + 专业领域推理。首选 Claude Opus 4.7 thinking（1305）—— thinking 模式的逐步推理对"发现异常→解释原因→给出建议"的链路最有帮助。但注意：LLM 不能替代专业医生/工程师，只能做初筛辅助。成本敏感场景可试 GPT-5.4 Nano（$1.25/M，Vision/$ 1023）。

场景

电商商品图 → 文案 / 标签 / 多语言描述

量大、重复、对绝对精度要求不高，但要快要便宜。首选 GPT-5.4 Nano（$1.25/M）—— Vision 1279 足够处理商品图识别，批量生成 1000 条描述成本可控。备选 GPT-5.4 Mini（$4.5/M），Vision 分可能和 Nano 接近但上下文更大（400K）。

场景

多模态 Agent（看图 + 调用工具 + 执行动作）

比如"截一张网页错误图，让 AI 自动查日志、改代码、部署验证"。这种场景需要 Vision + Agentic + Coding 三重能力。首选 Claude Opus 4.7 thinking（Vision 1305 + AA Agentic 71.29 + Coding 52.51）—— 三项都在前三。次选 GPT-5.5（Vision 1288 + AA Agentic 74.12 + Coding 59.12）， Agentic 和 Coding 比 Claude 还高，只是 Vision 稍弱。

看完榜单，这些坑别踩

1. Vision Elo 测的是"人类觉得好不好"，不是"认没认错"

LMArena 的打分标准是"回答质量"，不是"准确率"。一个模型可能回答很流畅、格式很漂亮，但实际上把图中的数字看错了。如果你做医疗、金融、工业质检这类"容错极低"的场景，不能只看 Elo，必须跑自己的测试集验证准确率。

2. "支持多模态"不等于"视觉理解强"

很多模型号称"支持图片输入"，但实际只是做了简单的 OCR + 文本描述拼接。 LMArena Vision Top 10 之外，大量模型的视觉能力可能只是"能读图里的文字"。如果你需要理解图表关系、空间布局、颜色语义，一定要选 Top 5 级别的模型。

3. 图片分辨率/token 消耗是隐藏成本

视觉模型的输入价格通常按"图片被切成多少 token"算。一张 4K 截图可能被切成 2000+ token，相当于几千字文本的输入成本。Claude Opus 4.7 的输入 $5/M、输出 $25/M，如果每次发 10 张高清图，token 消耗可能比文本对话贵 10 倍。算成本时要按"张数 × 平均每张 token"估算，不能只看文本价格。

4. 国内厂商的视觉能力数据是盲区

本页 Top 10 全是海外模型。Kimi、DeepSeek、Qwen、GLM 等都有视觉版本，但它们要么没参加 LMArena Vision，要么没进前 10。这不代表国内模型视觉弱—— 可能是评测语言以英文为主、测试集偏海外场景、或者厂商没主动投稿。中文视觉任务（比如看中文菜单、看国内发票、看中文 UI）建议直接拿真实场景测试，不要照搬国际榜。

5. "Thinking"模式贵且慢，不一定值得为视觉开

Claude Opus 4.7 thinking 的 Vision 比非 thinking 高 4 分，但 thinking 模式的 token 消耗通常是普通模式的 2-3 倍（中间推理链也要算钱），延迟也明显更长。如果任务只是"看图写一句话描述"，开 thinking 是浪费；如果是"看图做复杂分析推理"，这 4 分可能值回票价。按任务复杂度选模式，别一刀切。

方法学说明 / 这份榜不能告诉你的事

只有一份视觉数据源。本页所有视觉排名都来自 LMArena Vision Arena，没有第二个独立视觉基准做交叉验证。AA 和 SuperCLUE 目前都没有专门的视觉/多模态评测维度。
LMArena Vision 的测试集未公开。人类偏好打分可能偏向"回答长、格式好、语气礼貌"的模型，不一定反映真实视觉理解精度。
Vision Elo 不是线性量表。1305 和 1301 的差距（4 分）与 1301 和 1298 的差距（3 分）不代表能力差异相同。Elo 的分数差对应的是胜率，不是能力绝对值。
部分模型匹配是近似。LMArena 的模型名和 AA 的模型名不完全一致（如 LMArena 有"gpt-5.5-high"，AA 只有"GPT-5.5"），交叉分析时按家族近似匹配。
数据 2026-05-12 抓取。视觉能力迭代很快，新模型发布频繁，本页跟着 LMArena 每月更新。

想接下来做什么

看完视觉榜，跳到编程能力排行把"看图写代码"的能力也叠加比较。
如果你的任务涉及 Agent 编排，去 Agent 能力排行看多步骤任务的表现。
查模型详情库看每个模型的多源数据聚合。
拿你的真实场景图跑 20 个测试 case——榜单只能帮你缩小范围，最终选型要靠实测。