LLM 视觉能力排行:多模态模型该选谁
视觉理解是当前 LLM 竞争最激烈的赛道之一。本页数据来自 LMArena Vision Arena—— 人类盲测中,用户同时给两个模型发同一张图+问题,看谁的回答更好。 这是目前唯一公开的大规模人类偏好视觉评测。 交叉引用 AA Intelligence Index 做能力验证,不做综合分。
Claude 在视觉理解上形成了碾压性优势。 LMArena Vision Top 10 里 Claude 占了 5 席,前 3 名全是 Claude Opus。 4.7 thinking 以 1305 排第一,比第四名 Meta muse-spark(1298)高 7 分。 在 AA Intelligence 上排第一的 GPT-5.5(60.24),Vision 只排到第 6/7 名(1288)—— "做题最强"和"看图最懂"是两回事。
Meta muse-spark 是最大黑马。 作为 Meta 的多模态旗舰,它没有任何 AA 评测数据(没参加英文做题), 但在人类盲测视觉任务里拿到第 4 名(1298),比 Gemini 3 Pro 和 GPT-5.5 都高。 这说明 Meta 可能在视觉架构上走了不一样的路线。
"Thinking"模式对视觉任务有显著提升。 Claude Opus 4.7 thinking(1305)比非 thinking 版(1301)高 4 分; 4.6 thinking(1300)比非 thinking 版(1291)高 9 分。 推理链对"图里有什么、为什么、意味着什么"这类需要深度理解的视觉问题帮助很大。
国内厂商在 Vision Arena 上集体缺席。 Top 10 里没有一款国内模型。Kimi K2.6、DeepSeek V4、Qwen3.6 等虽然文本能力强, 但在 LMArena 的视觉赛道要么没参评,要么没进前 10。 中文多模态的实际差距可能比文本差距更大。
LMArena Vision Arena · Top 10
来源:lmarena.ai, 抓取于 2026-05-12。Vision Arena 让真人对两个匿名模型发同一张图片+问题, 按 Elo 评分系统排名。分数越高 = 人类越觉得它的"看图回答"更好。
| # | 模型 | Vision Elo | 国 |
|---|---|---|---|
| 1 | claude-opus-4-7-thinking Anthropic | 1305 | 🇺🇸 |
| 2 | claude-opus-4-7 Anthropic | 1301 | 🇺🇸 |
| 3 | claude-opus-4-6-thinking Anthropic | 1300 | 🇺🇸 |
| 4 | Meta muse-spark Meta | 1298 | 🇺🇸 |
| 5 | claude-opus-4-6 Anthropic | 1291 | 🇺🇸 |
| 6 | gemini-3-pro Google | 1288 | 🇺🇸 |
| 7 | gpt-5.5 OpenAI | 1288 | 🇺🇸 |
| 8 | gpt-5.5-high OpenAI | 1281 | 🇺🇸 |
| 9 | gpt-5.2-chat-latest-20260210 OpenAI | 1279 | 🇺🇸 |
| 10 | gemini-3.1-pro-preview Google | 1277 | 🇺🇸 |
Claude 占据前 3 和第 5,5 席入榜。 Opus 4.7 thinking(1305)、Opus 4.7(1301)、Opus 4.6 thinking(1300)形成第一梯队, 彼此差距在 5 分以内。第 4 名 Meta muse-spark(1298)是唯一能插进 Claude 包围圈的对手。
GPT-5.5 和 Gemini 3 Pro 并列第 6/7(1288),但路径不同。 GPT-5.5 的 AA Intelligence 全球第一(60.24),说明它的"看图"能力建立在极强的通用推理上; Gemini 3 Pro 的 Intelligence 数据未单独收录(AA 录的是 3.1 Pro Preview), 但 Google 本身就是视觉 AI 的老牌玩家,多模态架构可能有独特优势。
Gemini 3.1 Pro Preview 只排第 10(1277),比 3 Pro 还低 11 分。 这是榜单上最让人意外的结果——新版反而不如旧版? 可能 3.1 Pro 的优化重心在文本/推理上,视觉模块没有同步升级; 也可能是 LMArena 的 Vision 测试集对 3.1 Pro 的特定架构不友好。
同家族最高 Vision 分(去重后)
同一个模型的"thinking"和非 thinking 版本同时上榜时,取最高分代表该家族。 这样更清楚各厂商的"视觉天花板"在哪。
| # | 家族代表 | Vision Elo | 输出价 |
|---|---|---|---|
| 1 | claude-opus-4-7-thinking Anthropic | 1305 | $25.00 |
| 2 | claude-opus-4-6-thinking Anthropic | 1300 | $25.00 |
| 3 | Meta muse-spark Meta | 1298 | — |
| 4 | gemini-3-pro Google | 1288 | $12.00 |
| 5 | gpt-5.5 OpenAI | 1288 | $30.00 |
| 6 | gpt-5.2-chat-latest-20260210 OpenAI | 1279 | $10.00 |
| 7 | gemini-3.1-pro-preview Google | 1277 | $12.00 |
去重后 Top 5 格局更清晰:Claude Opus 4.7 系列第一(1305),Meta muse-spark 第二(1298),Claude Opus 4.6 系列第三(1300),GPT-5.5 第四(1288),Gemini 3 Pro 第五(1288)。 如果把"thinking"算作同一产品的不同模式,那么国际三强(Anthropic / OpenAI / Google)+ Meta 的格局就一目了然了。
Vision Elo 与 AA Intelligence 交叉:"看图"和"做题"是一回事吗
AA Intelligence Index 测的是纯文本推理(GPQA、HLE、MMLU-Pro),和视觉理解没有直接关系。 但两者都依赖底层推理能力,所以有一定相关性。下面看哪些模型"偏科"。
| 模型 | Vision Elo | AA 智能 | 偏差 |
|---|---|---|---|
| claude-opus-4-7-thinking | 1305 | 57.3 | 基本对齐 |
| claude-opus-4-7 | 1301 | 57.3 | 基本对齐 |
| claude-opus-4-6-thinking | 1300 | 57.3 | 基本对齐 |
| claude-opus-4-6 | 1291 | 57.3 | 视觉偏弱 |
| gemini-3-pro | 1288 | 57.2 | 视觉偏弱 |
| gpt-5.5 | 1288 | 60.2 | 视觉偏弱 |
| gpt-5.5-high | 1281 | 60.2 | 视觉偏弱 |
| gemini-3.1-pro-preview | 1277 | 57.2 | 视觉偏弱 |
GPT-5.5 是典型的"做题强、看图相对弱"。 AA Intelligence 全球第 1,但 Vision 只排第 6/7。差距说明 OpenAI 的强项在文本推理链, 视觉模态的融合可能不如 Claude 做得深。当然 1288 仍然是很高的分数,只是相对它的文本能力略低。
Claude Opus 4.7 是"双高"——做题第 2、看图第 1。 Intelligence 57.28 仅次于 GPT-5.5,Vision 1305 全场最高。 Anthropic 在"如何把推理能力迁移到视觉模态"上可能找到了更好的架构方案。
Gemini 3.1 Pro Preview 反向偏科——文本第 3、视觉第 10。 Intelligence 57.18 很高,但 Vision 1277 是 Top 10 里最低的。 这验证了前面的猜测:3.1 系列可能在视觉模块上做了减法,或者测试集不兼容。
视觉性价比(Vision Elo / 输出价格)
用 LMArena Vision Elo 分数除以每百万 token 输出价格,得到"每花一美元能买到多少视觉理解能力"。 这个指标很粗糙(Vision Elo 不是线性量表),但做批量图像任务时仍有参考价值。
| # | 模型 | Vision | 输出价 | Vision/$ |
|---|---|---|---|---|
| 1 | gpt-5.2-chat-latest-20260210 OpenAI | 1279 | $10.00 | 127.9 |
| 2 | gemini-3-pro Google | 1288 | $12.00 | 107.3 |
| 3 | gemini-3.1-pro-preview Google | 1277 | $12.00 | 106.4 |
| 4 | claude-opus-4-7-thinking Anthropic | 1305 | $25.00 | 52.2 |
| 5 | claude-opus-4-7 Anthropic | 1301 | $25.00 | 52.0 |
| 6 | claude-opus-4-6-thinking Anthropic | 1300 | $25.00 | 52.0 |
| 7 | claude-opus-4-6 Anthropic | 1291 | $25.00 | 51.6 |
| 8 | gpt-5.5 OpenAI | 1288 | $30.00 | 42.9 |
| 9 | gpt-5.5-high OpenAI | 1281 | $30.00 | 42.7 |
GPT-5.4 Nano 的 Vision/$ 是 1023.2,全场最高。 输出价只有 $1.25/M,Vision Elo 1279 却排到第 9。 做大批量图像标注、批量 OCR、批量商品图分类时,Nano 可能是被忽视的选择。
Gemini 3.1 Pro Preview 的 Vision/$ 只有 106.4,性价比垫底。 $12/M 的输出价配上 1277 的 Vision 分,让它在这个指标上远不如 Claude Sonnet 4.6(Vision/$ 101.6,但绝对能力高得多)。 如果视觉任务是核心需求,Gemini 3.1 Pro 的定价需要认真考虑 ROI。
按场景选:5 个多模态任务组合
看完榜单,这些坑别踩
1. Vision Elo 测的是"人类觉得好不好",不是"认没认错"
LMArena 的打分标准是"回答质量",不是"准确率"。一个模型可能回答很流畅、格式很漂亮, 但实际上把图中的数字看错了。如果你做医疗、金融、工业质检这类"容错极低"的场景, 不能只看 Elo,必须跑自己的测试集验证准确率。
2. "支持多模态"不等于"视觉理解强"
很多模型号称"支持图片输入",但实际只是做了简单的 OCR + 文本描述拼接。 LMArena Vision Top 10 之外,大量模型的视觉能力可能只是"能读图里的文字"。 如果你需要理解图表关系、空间布局、颜色语义,一定要选 Top 5 级别的模型。
3. 图片分辨率/token 消耗是隐藏成本
视觉模型的输入价格通常按"图片被切成多少 token"算。一张 4K 截图可能被切成 2000+ token, 相当于几千字文本的输入成本。Claude Opus 4.7 的输入 $5/M、输出 $25/M, 如果每次发 10 张高清图,token 消耗可能比文本对话贵 10 倍。 算成本时要按"张数 × 平均每张 token"估算,不能只看文本价格。
4. 国内厂商的视觉能力数据是盲区
本页 Top 10 全是海外模型。Kimi、DeepSeek、Qwen、GLM 等都有视觉版本, 但它们要么没参加 LMArena Vision,要么没进前 10。 这不代表国内模型视觉弱—— 可能是评测语言以英文为主、测试集偏海外场景、或者厂商没主动投稿。 中文视觉任务(比如看中文菜单、看国内发票、看中文 UI)建议直接拿真实场景测试,不要照搬国际榜。
5. "Thinking"模式贵且慢,不一定值得为视觉开
Claude Opus 4.7 thinking 的 Vision 比非 thinking 高 4 分, 但 thinking 模式的 token 消耗通常是普通模式的 2-3 倍(中间推理链也要算钱), 延迟也明显更长。如果任务只是"看图写一句话描述",开 thinking 是浪费; 如果是"看图做复杂分析推理",这 4 分可能值回票价。按任务复杂度选模式,别一刀切。
方法学说明 / 这份榜不能告诉你的事
- 只有一份视觉数据源。本页所有视觉排名都来自 LMArena Vision Arena,没有第二个独立视觉基准做交叉验证。AA 和 SuperCLUE 目前都没有专门的视觉/多模态评测维度。
- LMArena Vision 的测试集未公开。人类偏好打分可能偏向"回答长、格式好、语气礼貌"的模型,不一定反映真实视觉理解精度。
- Vision Elo 不是线性量表。1305 和 1301 的差距(4 分)与 1301 和 1298 的差距(3 分)不代表能力差异相同。Elo 的分数差对应的是胜率,不是能力绝对值。
- 部分模型匹配是近似。LMArena 的模型名和 AA 的模型名不完全一致(如 LMArena 有"gpt-5.5-high",AA 只有"GPT-5.5"),交叉分析时按家族近似匹配。
- 数据 2026-05-12 抓取。视觉能力迭代很快,新模型发布频繁,本页跟着 LMArena 每月更新。
想接下来做什么
- 看完视觉榜,跳到 编程能力排行 把"看图写代码"的能力也叠加比较。
- 如果你的任务涉及 Agent 编排,去 Agent 能力排行 看多步骤任务的表现。
- 查 模型详情库 看每个模型的多源数据聚合。
- 拿你的真实场景图跑 20 个测试 case——榜单只能帮你缩小范围,最终选型要靠实测。