2026-05-12 · 排行榜 · 视觉能力专项

LLM 视觉能力排行:多模态模型该选谁

视觉理解是当前 LLM 竞争最激烈的赛道之一。本页数据来自 LMArena Vision Arena—— 人类盲测中,用户同时给两个模型发同一张图+问题,看谁的回答更好。 这是目前唯一公开的大规模人类偏好视觉评测。 交叉引用 AA Intelligence Index 做能力验证,不做综合分。

Claude 在视觉理解上形成了碾压性优势。 LMArena Vision Top 10 里 Claude 占了 5 席,前 3 名全是 Claude Opus。 4.7 thinking 以 1305 排第一,比第四名 Meta muse-spark(1298)高 7 分。 在 AA Intelligence 上排第一的 GPT-5.5(60.24),Vision 只排到第 6/7 名(1288)—— "做题最强"和"看图最懂"是两回事。

Meta muse-spark 是最大黑马。 作为 Meta 的多模态旗舰,它没有任何 AA 评测数据(没参加英文做题), 但在人类盲测视觉任务里拿到第 4 名(1298),比 Gemini 3 Pro 和 GPT-5.5 都高。 这说明 Meta 可能在视觉架构上走了不一样的路线。

"Thinking"模式对视觉任务有显著提升。 Claude Opus 4.7 thinking(1305)比非 thinking 版(1301)高 4 分; 4.6 thinking(1300)比非 thinking 版(1291)高 9 分。 推理链对"图里有什么、为什么、意味着什么"这类需要深度理解的视觉问题帮助很大。

国内厂商在 Vision Arena 上集体缺席。 Top 10 里没有一款国内模型。Kimi K2.6、DeepSeek V4、Qwen3.6 等虽然文本能力强, 但在 LMArena 的视觉赛道要么没参评,要么没进前 10。 中文多模态的实际差距可能比文本差距更大。

LMArena Vision Arena · Top 10

来源:lmarena.ai, 抓取于 2026-05-12。Vision Arena 让真人对两个匿名模型发同一张图片+问题, 按 Elo 评分系统排名。分数越高 = 人类越觉得它的"看图回答"更好。

# 模型 Vision Elo
1 claude-opus-4-7-thinking
Anthropic
1305 🇺🇸
2 claude-opus-4-7
Anthropic
1301 🇺🇸
3 claude-opus-4-6-thinking
Anthropic
1300 🇺🇸
4 Meta muse-spark
Meta
1298 🇺🇸
5 claude-opus-4-6
Anthropic
1291 🇺🇸
6 gemini-3-pro
Google
1288 🇺🇸
7 gpt-5.5
OpenAI
1288 🇺🇸
8 gpt-5.5-high
OpenAI
1281 🇺🇸
9 gpt-5.2-chat-latest-20260210
OpenAI
1279 🇺🇸
10 gemini-3.1-pro-preview
Google
1277 🇺🇸

Claude 占据前 3 和第 5,5 席入榜。 Opus 4.7 thinking(1305)、Opus 4.7(1301)、Opus 4.6 thinking(1300)形成第一梯队, 彼此差距在 5 分以内。第 4 名 Meta muse-spark(1298)是唯一能插进 Claude 包围圈的对手。

GPT-5.5 和 Gemini 3 Pro 并列第 6/7(1288),但路径不同。 GPT-5.5 的 AA Intelligence 全球第一(60.24),说明它的"看图"能力建立在极强的通用推理上; Gemini 3 Pro 的 Intelligence 数据未单独收录(AA 录的是 3.1 Pro Preview), 但 Google 本身就是视觉 AI 的老牌玩家,多模态架构可能有独特优势。

Gemini 3.1 Pro Preview 只排第 10(1277),比 3 Pro 还低 11 分。 这是榜单上最让人意外的结果——新版反而不如旧版? 可能 3.1 Pro 的优化重心在文本/推理上,视觉模块没有同步升级; 也可能是 LMArena 的 Vision 测试集对 3.1 Pro 的特定架构不友好。

同家族最高 Vision 分(去重后)

同一个模型的"thinking"和非 thinking 版本同时上榜时,取最高分代表该家族。 这样更清楚各厂商的"视觉天花板"在哪。

# 家族代表 Vision Elo 输出价
1 claude-opus-4-7-thinking
Anthropic
1305 $25.00
2 claude-opus-4-6-thinking
Anthropic
1300 $25.00
3 Meta muse-spark
Meta
1298
4 gemini-3-pro
Google
1288 $12.00
5 gpt-5.5
OpenAI
1288 $30.00
6 gpt-5.2-chat-latest-20260210
OpenAI
1279 $10.00
7 gemini-3.1-pro-preview
Google
1277 $12.00

去重后 Top 5 格局更清晰:Claude Opus 4.7 系列第一(1305),Meta muse-spark 第二(1298),Claude Opus 4.6 系列第三(1300),GPT-5.5 第四(1288),Gemini 3 Pro 第五(1288)。 如果把"thinking"算作同一产品的不同模式,那么国际三强(Anthropic / OpenAI / Google)+ Meta 的格局就一目了然了。

Vision Elo 与 AA Intelligence 交叉:"看图"和"做题"是一回事吗

AA Intelligence Index 测的是纯文本推理(GPQA、HLE、MMLU-Pro),和视觉理解没有直接关系。 但两者都依赖底层推理能力,所以有一定相关性。下面看哪些模型"偏科"。

模型 Vision Elo AA 智能 偏差
claude-opus-4-7-thinking 1305 57.3 基本对齐
claude-opus-4-7 1301 57.3 基本对齐
claude-opus-4-6-thinking 1300 57.3 基本对齐
claude-opus-4-6 1291 57.3 视觉偏弱
gemini-3-pro 1288 57.2 视觉偏弱
gpt-5.5 1288 60.2 视觉偏弱
gpt-5.5-high 1281 60.2 视觉偏弱
gemini-3.1-pro-preview 1277 57.2 视觉偏弱

GPT-5.5 是典型的"做题强、看图相对弱"。 AA Intelligence 全球第 1,但 Vision 只排第 6/7。差距说明 OpenAI 的强项在文本推理链, 视觉模态的融合可能不如 Claude 做得深。当然 1288 仍然是很高的分数,只是相对它的文本能力略低。

Claude Opus 4.7 是"双高"——做题第 2、看图第 1。 Intelligence 57.28 仅次于 GPT-5.5,Vision 1305 全场最高。 Anthropic 在"如何把推理能力迁移到视觉模态"上可能找到了更好的架构方案。

Gemini 3.1 Pro Preview 反向偏科——文本第 3、视觉第 10。 Intelligence 57.18 很高,但 Vision 1277 是 Top 10 里最低的。 这验证了前面的猜测:3.1 系列可能在视觉模块上做了减法,或者测试集不兼容。

视觉性价比(Vision Elo / 输出价格)

用 LMArena Vision Elo 分数除以每百万 token 输出价格,得到"每花一美元能买到多少视觉理解能力"。 这个指标很粗糙(Vision Elo 不是线性量表),但做批量图像任务时仍有参考价值。

# 模型 Vision 输出价 Vision/$
1 gpt-5.2-chat-latest-20260210
OpenAI
1279 $10.00 127.9
2 gemini-3-pro
Google
1288 $12.00 107.3
3 gemini-3.1-pro-preview
Google
1277 $12.00 106.4
4 claude-opus-4-7-thinking
Anthropic
1305 $25.00 52.2
5 claude-opus-4-7
Anthropic
1301 $25.00 52.0
6 claude-opus-4-6-thinking
Anthropic
1300 $25.00 52.0
7 claude-opus-4-6
Anthropic
1291 $25.00 51.6
8 gpt-5.5
OpenAI
1288 $30.00 42.9
9 gpt-5.5-high
OpenAI
1281 $30.00 42.7

GPT-5.4 Nano 的 Vision/$ 是 1023.2,全场最高。 输出价只有 $1.25/M,Vision Elo 1279 却排到第 9。 做大批量图像标注、批量 OCR、批量商品图分类时,Nano 可能是被忽视的选择。

Gemini 3.1 Pro Preview 的 Vision/$ 只有 106.4,性价比垫底。 $12/M 的输出价配上 1277 的 Vision 分,让它在这个指标上远不如 Claude Sonnet 4.6(Vision/$ 101.6,但绝对能力高得多)。 如果视觉任务是核心需求,Gemini 3.1 Pro 的定价需要认真考虑 ROI。

按场景选:5 个多模态任务组合

场景
UI 截图 / 设计稿 → 前端代码
既要"看懂图"又要"写出代码",Vision 和 Coding 能力都要硬。 首选 Claude Opus 4.7(Vision #1 + AA Coding #2)—— LMArena WebDev 也是第一,截图转代码的端到端体验目前最好。 预算紧选 Claude Sonnet 4.6(Vision 未入前 10 但 WebDev #6,$15/M)。
场景
图表理解 / 数据可视化分析
读饼图、折线图、热力图,提取数据并做分析。 推荐 GPT-5.5(Vision 1288 + Intelligence 60.24 全球第一)—— 图表理解本质上是"看图+数学推理",GPT-5.5 的推理链对数据推断帮助大。 备选 Claude Opus 4.7 thinking(1305),thinking 模式对复杂图表的分步解读更稳。
场景
医疗影像 / 工业质检 / 科研图片辅助
需要高精度细节识别 + 专业领域推理。 首选 Claude Opus 4.7 thinking(1305)—— thinking 模式的逐步推理对"发现异常→解释原因→给出建议"的链路最有帮助。 但注意:LLM 不能替代专业医生/工程师,只能做初筛辅助。 成本敏感场景可试 GPT-5.4 Nano($1.25/M,Vision/$ 1023)。
场景
电商商品图 → 文案 / 标签 / 多语言描述
量大、重复、对绝对精度要求不高,但要快要便宜。 首选 GPT-5.4 Nano($1.25/M)—— Vision 1279 足够处理商品图识别,批量生成 1000 条描述成本可控。 备选 GPT-5.4 Mini($4.5/M),Vision 分可能和 Nano 接近但上下文更大(400K)。
场景
多模态 Agent(看图 + 调用工具 + 执行动作)
比如"截一张网页错误图,让 AI 自动查日志、改代码、部署验证"。 这种场景需要 Vision + Agentic + Coding 三重能力。 首选 Claude Opus 4.7 thinking(Vision 1305 + AA Agentic 71.29 + Coding 52.51)—— 三项都在前三。次选 GPT-5.5(Vision 1288 + AA Agentic 74.12 + Coding 59.12), Agentic 和 Coding 比 Claude 还高,只是 Vision 稍弱。

看完榜单,这些坑别踩

1. Vision Elo 测的是"人类觉得好不好",不是"认没认错"

LMArena 的打分标准是"回答质量",不是"准确率"。一个模型可能回答很流畅、格式很漂亮, 但实际上把图中的数字看错了。如果你做医疗、金融、工业质检这类"容错极低"的场景, 不能只看 Elo,必须跑自己的测试集验证准确率。

2. "支持多模态"不等于"视觉理解强"

很多模型号称"支持图片输入",但实际只是做了简单的 OCR + 文本描述拼接。 LMArena Vision Top 10 之外,大量模型的视觉能力可能只是"能读图里的文字"。 如果你需要理解图表关系、空间布局、颜色语义,一定要选 Top 5 级别的模型。

3. 图片分辨率/token 消耗是隐藏成本

视觉模型的输入价格通常按"图片被切成多少 token"算。一张 4K 截图可能被切成 2000+ token, 相当于几千字文本的输入成本。Claude Opus 4.7 的输入 $5/M、输出 $25/M, 如果每次发 10 张高清图,token 消耗可能比文本对话贵 10 倍。 算成本时要按"张数 × 平均每张 token"估算,不能只看文本价格。

4. 国内厂商的视觉能力数据是盲区

本页 Top 10 全是海外模型。Kimi、DeepSeek、Qwen、GLM 等都有视觉版本, 但它们要么没参加 LMArena Vision,要么没进前 10。 这不代表国内模型视觉弱—— 可能是评测语言以英文为主、测试集偏海外场景、或者厂商没主动投稿。 中文视觉任务(比如看中文菜单、看国内发票、看中文 UI)建议直接拿真实场景测试,不要照搬国际榜。

5. "Thinking"模式贵且慢,不一定值得为视觉开

Claude Opus 4.7 thinking 的 Vision 比非 thinking 高 4 分, 但 thinking 模式的 token 消耗通常是普通模式的 2-3 倍(中间推理链也要算钱), 延迟也明显更长。如果任务只是"看图写一句话描述",开 thinking 是浪费; 如果是"看图做复杂分析推理",这 4 分可能值回票价。按任务复杂度选模式,别一刀切。

方法学说明 / 这份榜不能告诉你的事

  • 只有一份视觉数据源。本页所有视觉排名都来自 LMArena Vision Arena,没有第二个独立视觉基准做交叉验证。AA 和 SuperCLUE 目前都没有专门的视觉/多模态评测维度。
  • LMArena Vision 的测试集未公开。人类偏好打分可能偏向"回答长、格式好、语气礼貌"的模型,不一定反映真实视觉理解精度。
  • Vision Elo 不是线性量表。1305 和 1301 的差距(4 分)与 1301 和 1298 的差距(3 分)不代表能力差异相同。Elo 的分数差对应的是胜率,不是能力绝对值。
  • 部分模型匹配是近似。LMArena 的模型名和 AA 的模型名不完全一致(如 LMArena 有"gpt-5.5-high",AA 只有"GPT-5.5"),交叉分析时按家族近似匹配。
  • 数据 2026-05-12 抓取。视觉能力迭代很快,新模型发布频繁,本页跟着 LMArena 每月更新。

想接下来做什么

  1. 看完视觉榜,跳到 编程能力排行 把"看图写代码"的能力也叠加比较。
  2. 如果你的任务涉及 Agent 编排,去 Agent 能力排行 看多步骤任务的表现。
  3. 模型详情库 看每个模型的多源数据聚合。
  4. 拿你的真实场景图跑 20 个测试 case——榜单只能帮你缩小范围,最终选型要靠实测。

相关阅读