2026 年 2 月 · 6 款前沿模型 · 实时数据

前沿大模型
深度对比报告

基于官方数据与第三方评测,全方位对比 2026 年最强 AI 模型在编程、推理、智能体、多模态等维度的真实表现。

Opus 4.6
GPT-5.3-Codex
Gemini 3.1 Pro
MiniMax M2.5
Kimi K2.5
GLM-5

参评模型一览

六款来自全球顶尖 AI 实验室的旗舰模型,覆盖中美两国最前沿的技术路线。

Claude Opus 4.6
Anthropic
2026-02-05
上下文
1M
最大输出
128K
SWE-bench
80.8%
OSWorld
72.7%
自适应思考 Agent Teams 上下文压缩 最佳安全性
GPT-5.3-Codex
OpenAI
2026-02-05
Terminal-Bench
77.3%
Cyber CTF
77.6%
SWE-Bench Pro
56.8%
OSWorld
64.7%
交互式协作 自我迭代训练 GB200 NVL72
Gemini 3.1 Pro
Google DeepMind
2026-02-19
上下文
1M
ARC-AGI-2
77.1%
GPQA
94.3%
BrowseComp
85.9%
顶级推理 多模态原生 Antigravity
MiniMax M2.5
MiniMax
2026-02-12
激活参数
10B
速度
100 TPS
SWE-bench
80.2%
输入价格
$0.30/M
极致性价比 Office 套件 10+ 语言
Kimi K2.5
Moonshot AI
2026 年初
总参数
1T
激活参数
32B
AIME 2025
96.1%
上下文
256K
Agent Swarm 原生多模态 开源
GLM-5
Zhipu AI / 智谱 AI
2026 年初
总参数
744B
激活参数
40B
SWE-bench
77.8%
上下文
200K
Agent 工程 MCP 支持 稀疏注意力

核心基准测试

数据经 Google DeepMind 第三方评测与各厂商官方数据交叉验证。加粗绿色表示该维度最佳。

基准测试 Gemini 3.1 Pro Opus 4.6 GPT-5.3-Codex MiniMax M2.5 Kimi K2.5 GLM-5
SWE-Bench Verified 80.6% 80.8% 80.2% 76.8% 77.8%
Terminal-Bench 2.0 68.5% 65.4% 77.3% 56.2%
SWE-Bench Pro (Public) 54.2% 56.8%
Humanity's Last Exam 🔎 51.4% 53.1%
ARC-AGI-2 77.1% 68.8%
GPQA Diamond 94.3% 91.3% 87.6%
OSWorld-Verified 72.7% 64.7%
BrowseComp 85.9% 84.0% 76.3% 78.4%
GDPval-AA (Elo) 1317 1606
MMMU Pro 80.5% 73.9% 78.5%
MMMLU 92.6% 91.1%
AIME 2025 96.1%
Cybersecurity CTF 77.6%
Multi-SWE-Bench 50.3% 51.3%

多维可视化

通过图表直观展示各模型在不同维度的强弱对比。

编程能力对比

SWE-Bench Verified — 真实世界软件工程基准

推理与知识

跨基准推理能力雷达图

智能体 (Agent) 能力

BrowseComp / OSWorld / Terminal-Bench

成本效率

每 $100 可完成的 SWE-bench 任务数 vs 性能

各维度冠军

每个关键评测维度的最强选手。

编程 (SWE-bench)
Opus 4.6
80.8%
终端操作
GPT-5.3-Codex
77.3%
抽象推理 (ARC-AGI-2)
Gemini 3.1 Pro
77.1%
科学知识 (GPQA)
Gemini 3.1 Pro
94.3%
计算机操作 (OSWorld)
Opus 4.6
72.7%
知识工作 (GDPval)
Opus 4.6
1606 Elo
网页浏览 (BrowseComp)
Gemini 3.1 Pro
85.9%
性价比之王
MiniMax M2.5
$0.30/M input
数学竞赛 (AIME)
Kimi K2.5
96.1%

为什么 Opus 4.6 是最值得信赖的选择

在编程、推理、智能体、知识工作四大核心维度全部处于顶尖位置的唯一模型。没有明显短板,就是最大的长板。SWE-bench Verified 80.8% 居首、OSWorld 72.7% 接近人类水平、Humanity's Last Exam 53.1% 带工具第一、GDPval-AA 领先 GPT-5.2 达 144 Elo。

1M 上下文

百万 token 上下文窗口,MRCR v2 从 18.5% 飙升至 76%,质的飞跃

自适应智能

四级 effort 控制 + 自适应思考,简单任务飞速,复杂问题深入

业界最佳安全

过度拒绝率最低、不对齐行为率最低。强大且可控。

Agent Teams

多代理协作处理百万行代码库迁移与重构,游刃有余

上下文压缩

自动摘要旧上下文,让长任务永不中断

毒舌吐槽大会

以下内容纯属技术吐槽,博君一笑。各位模型若有不适,建议升级参数再来。

🤖 GLM-5
744B 参数只激活 40B?"稀疏注意力"确实够稀疏。SWE-bench 77.8% 垫底,Terminal-Bench 56.2%——终端操作能力怕是 rm -rf / 都要思考半天。号称 "Agent 工程先锋",结果 Agent 基准测试连影子都看不到。
"不报分数也是一种策略——至少没人知道你多差。"
🐙 Kimi K2.5
1 万亿参数!结果 SWE-bench 76.8%,连 MiniMax 10B 的小个子都打不过。100 个子代理才 BrowseComp 78.4%,Opus 4.6 一个人 84%。群体智能 = 一百个臭皮匠凑不出一个诸葛亮?AIME 96.1% 确实牛,但除了做数学题还能干啥?
"1T 参数的最大用途:给数学老师当计算器。"
💸 MiniMax M2.5
"$10,000 跑一年"——拼多多看了都流泪。但 GDPval-AA 只有 59% 胜率,知识工作被 Opus 4.6 的 1606 Elo 按在地上摩擦。10B 激活参数自称 "Tier-1"?好比身高一米五自称 NBA 球员。
"便宜是真便宜,就是干活得看心情。"
🧠 GPT-5.3-Codex
Terminal-Bench 77.3% 确实猛。但 OSWorld 64.7%?一出终端就不行了。SWE-bench Verified 的分数不敢报——只报 SWE-bench Pro。GDPval 和 GPT-5.2 持平?你是 "5.3" 还是 "5.2 Plus"?首个参与自身训练——所以 bug 也是自己训出来的?
"终端之王,终端之外皆凡人。"
🌧️ Gemini 3.1 Pro
ARC-AGI-2 77.1% 强,GPQA 94.3% 佩服。但 GDPval-AA 1317 Elo?Opus 4.6 1606,连 Sonnet 4.6 (1633) 都打不过。理论满分但不会做饭的天才。MRCR v2 1M 的 26.3%……百万上下文还是百万遗忘?
"考试第一名,上班就摆烂。"
查看完整报告 (report.md)