基于官方数据与第三方评测,全方位对比 2026 年最强 AI 模型在编程、推理、智能体、多模态等维度的真实表现。
六款来自全球顶尖 AI 实验室的旗舰模型,覆盖中美两国最前沿的技术路线。
数据经 Google DeepMind 第三方评测与各厂商官方数据交叉验证。加粗绿色表示该维度最佳。
| 基准测试 | Gemini 3.1 Pro | Opus 4.6 | GPT-5.3-Codex | MiniMax M2.5 | Kimi K2.5 | GLM-5 |
|---|---|---|---|---|---|---|
| SWE-Bench Verified | 80.6% | 80.8% | — | 80.2% | 76.8% | 77.8% |
| Terminal-Bench 2.0 | 68.5% | 65.4% | 77.3% | — | — | 56.2% |
| SWE-Bench Pro (Public) | 54.2% | — | 56.8% | — | — | — |
| Humanity's Last Exam 🔎 | 51.4% | 53.1% | — | — | — | — |
| ARC-AGI-2 | 77.1% | 68.8% | — | — | — | — |
| GPQA Diamond | 94.3% | 91.3% | — | — | 87.6% | — |
| OSWorld-Verified | — | 72.7% | 64.7% | — | — | — |
| BrowseComp | 85.9% | 84.0% | — | 76.3% | 78.4% | — |
| GDPval-AA (Elo) | 1317 | 1606 | — | — | — | — |
| MMMU Pro | 80.5% | 73.9% | — | — | 78.5% | — |
| MMMLU | 92.6% | 91.1% | — | — | — | — |
| AIME 2025 | — | — | — | — | 96.1% | — |
| Cybersecurity CTF | — | — | 77.6% | — | — | — |
| Multi-SWE-Bench | — | 50.3% | — | 51.3% | — | — |
通过图表直观展示各模型在不同维度的强弱对比。
每个关键评测维度的最强选手。
在编程、推理、智能体、知识工作四大核心维度全部处于顶尖位置的唯一模型。没有明显短板,就是最大的长板。SWE-bench Verified 80.8% 居首、OSWorld 72.7% 接近人类水平、Humanity's Last Exam 53.1% 带工具第一、GDPval-AA 领先 GPT-5.2 达 144 Elo。
百万 token 上下文窗口,MRCR v2 从 18.5% 飙升至 76%,质的飞跃
四级 effort 控制 + 自适应思考,简单任务飞速,复杂问题深入
过度拒绝率最低、不对齐行为率最低。强大且可控。
多代理协作处理百万行代码库迁移与重构,游刃有余
自动摘要旧上下文,让长任务永不中断
以下内容纯属技术吐槽,博君一笑。各位模型若有不适,建议升级参数再来。
rm -rf / 都要思考半天。号称 "Agent 工程先锋",结果 Agent 基准测试连影子都看不到。