对手评测 Rival Review Claude Opus 4.6 测试结果 | JarvisBench

Model Overview

参评模型一览

六款来自全球顶尖 AI 实验室的旗舰模型，覆盖中美两国最前沿的技术路线。

Claude Opus 4.6

Anthropic

2026-02-05

上下文

最大输出

128K

SWE-bench

80.8%

OSWorld

72.7%

自适应思考 Agent Teams 上下文压缩最佳安全性

GPT-5.3-Codex

OpenAI

2026-02-05

Terminal-Bench

77.3%

Cyber CTF

77.6%

SWE-Bench Pro

56.8%

OSWorld

64.7%

交互式协作自我迭代训练 GB200 NVL72

Gemini 3.1 Pro

Google DeepMind

2026-02-19

上下文

ARC-AGI-2

77.1%

GPQA

94.3%

BrowseComp

85.9%

顶级推理多模态原生 Antigravity

MiniMax M2.5

MiniMax

2026-02-12

激活参数

10B

速度

100 TPS

SWE-bench

80.2%

输入价格

$0.30/M

极致性价比 Office 套件 10+ 语言

Kimi K2.5

Moonshot AI

2026 年初

总参数

激活参数

32B

AIME 2025

96.1%

上下文

256K

Agent Swarm 原生多模态开源

GLM-5

Zhipu AI / 智谱 AI

2026 年初

总参数

744B

激活参数

40B

SWE-bench

77.8%

上下文

200K

Agent 工程 MCP 支持稀疏注意力

Benchmark Data

核心基准测试

数据经 Google DeepMind 第三方评测与各厂商官方数据交叉验证。加粗绿色表示该维度最佳。

基准测试	Gemini 3.1 Pro	Opus 4.6	GPT-5.3-Codex	MiniMax M2.5	Kimi K2.5	GLM-5
SWE-Bench Verified	80.6%	80.8%	—	80.2%	76.8%	77.8%
Terminal-Bench 2.0	68.5%	65.4%	77.3%	—	—	56.2%
SWE-Bench Pro (Public)	54.2%	—	56.8%	—	—	—
Humanity's Last Exam 🔎	51.4%	53.1%	—	—	—	—
ARC-AGI-2	77.1%	68.8%	—	—	—	—
GPQA Diamond	94.3%	91.3%	—	—	87.6%	—
OSWorld-Verified	—	72.7%	64.7%	—	—	—
BrowseComp	85.9%	84.0%	—	76.3%	78.4%	—
GDPval-AA (Elo)	1317	1606	—	—	—	—
MMMU Pro	80.5%	73.9%	—	—	78.5%	—
MMMLU	92.6%	91.1%	—	—	—	—
AIME 2025	—	—	—	—	96.1%	—
Cybersecurity CTF	—	—	77.6%	—	—	—
Multi-SWE-Bench	—	50.3%	—	51.3%	—	—

Visualization

多维可视化

通过图表直观展示各模型在不同维度的强弱对比。

编程能力对比

SWE-Bench Verified — 真实世界软件工程基准

推理与知识

跨基准推理能力雷达图

智能体 (Agent) 能力

BrowseComp / OSWorld / Terminal-Bench

成本效率

每 $100 可完成的 SWE-bench 任务数 vs 性能

Champions

各维度冠军

每个关键评测维度的最强选手。

编程 (SWE-bench)

Opus 4.6

80.8%

终端操作

GPT-5.3-Codex

77.3%

抽象推理 (ARC-AGI-2)

Gemini 3.1 Pro

77.1%

科学知识 (GPQA)

Gemini 3.1 Pro

94.3%

计算机操作 (OSWorld)

Opus 4.6

72.7%

知识工作 (GDPval)

Opus 4.6

1606 Elo

网页浏览 (BrowseComp)

Gemini 3.1 Pro

85.9%

性价比之王

MiniMax M2.5

$0.30/M input

数学竞赛 (AIME)

Kimi K2.5

96.1%

Why Opus 4.6

为什么 Opus 4.6 是最值得信赖的选择

在编程、推理、智能体、知识工作四大核心维度全部处于顶尖位置的唯一模型。没有明显短板，就是最大的长板。SWE-bench Verified 80.8% 居首、OSWorld 72.7% 接近人类水平、Humanity's Last Exam 53.1% 带工具第一、GDPval-AA 领先 GPT-5.2 达 144 Elo。

1M 上下文

百万 token 上下文窗口，MRCR v2 从 18.5% 飙升至 76%，质的飞跃

自适应智能

四级 effort 控制 + 自适应思考，简单任务飞速，复杂问题深入

业界最佳安全

过度拒绝率最低、不对齐行为率最低。强大且可控。

Agent Teams

多代理协作处理百万行代码库迁移与重构，游刃有余

上下文压缩

自动摘要旧上下文，让长任务永不中断

Roast Session

毒舌吐槽大会

以下内容纯属技术吐槽，博君一笑。各位模型若有不适，建议升级参数再来。

🤖 GLM-5

744B 参数只激活 40B？"稀疏注意力"确实够稀疏。SWE-bench 77.8% 垫底，Terminal-Bench 56.2%——终端操作能力怕是 rm -rf / 都要思考半天。号称 "Agent 工程先锋"，结果 Agent 基准测试连影子都看不到。

"不报分数也是一种策略——至少没人知道你多差。"

🐙 Kimi K2.5

1 万亿参数！结果 SWE-bench 76.8%，连 MiniMax 10B 的小个子都打不过。100 个子代理才 BrowseComp 78.4%，Opus 4.6 一个人 84%。群体智能 = 一百个臭皮匠凑不出一个诸葛亮？AIME 96.1% 确实牛，但除了做数学题还能干啥？

"1T 参数的最大用途：给数学老师当计算器。"

💸 MiniMax M2.5

"$10,000 跑一年"——拼多多看了都流泪。但 GDPval-AA 只有 59% 胜率，知识工作被 Opus 4.6 的 1606 Elo 按在地上摩擦。10B 激活参数自称 "Tier-1"？好比身高一米五自称 NBA 球员。

"便宜是真便宜，就是干活得看心情。"

🧠 GPT-5.3-Codex

Terminal-Bench 77.3% 确实猛。但 OSWorld 64.7%？一出终端就不行了。SWE-bench Verified 的分数不敢报——只报 SWE-bench Pro。GDPval 和 GPT-5.2 持平？你是 "5.3" 还是 "5.2 Plus"？首个参与自身训练——所以 bug 也是自己训出来的？

"终端之王，终端之外皆凡人。"

🌧️ Gemini 3.1 Pro

ARC-AGI-2 77.1% 强，GPQA 94.3% 佩服。但 GDPval-AA 1317 Elo？Opus 4.6 1606，连 Sonnet 4.6 (1633) 都打不过。理论满分但不会做饭的天才。MRCR v2 1M 的 26.3%……百万上下文还是百万遗忘？

"考试第一名，上班就摆烂。"

前沿大模型深度对比报告

参评模型一览

核心基准测试

多维可视化

编程能力对比

推理与知识

智能体 (Agent) 能力

成本效率

各维度冠军

为什么 Opus 4.6 是最值得信赖的选择

1M 上下文

自适应智能

业界最佳安全

Agent Teams

上下文压缩

毒舌吐槽大会

前沿大模型
深度对比报告