核心观察
最高 Terminal-Bench 2.0(公开)
Gemini 3.1 Pro: 68.5%
最高 SWE-Bench Verified(公开)
MiniMax M2.5: 80.2%
最长公开上下文
Opus 4.6 / GPT-5.3-Codex: 1M
最低公开输出价(每百万 token)
MiniMax M2.5: $2.4
结论先行:Gemini 3.1 Pro 与 Opus 4.6 在高难推理+Agent基准表现突出;MiniMax M2.5 在价格与吞吐最激进;GPT-5.3-Codex、GLM-5、Kimi K2.5 在工程执行链路上各有长板。
| 模型 | Terminal-Bench 2.0 | SWE-Bench Verified | HLE (with tools) | 上下文窗口 | 公开价格(输出/$每百万) |
|---|---|---|---|---|---|
| GLM-5 | 56.2 | 77.8 | N/A | 200K | N/A |
| Kimi K2.5 | 50.8 | 76.8 | 50.2 | 256K | N/A |
| MiniMax M2.5 | N/A | 80.2 | N/A | N/A | $2.4 |
| Claude Opus 4.6 | 65.4 | N/A | N/A | 1M (beta) | $25 |
| GPT-5.3-Codex | 64.7 | 74.9 | 36.8 | 1M | N/A |
| Gemini 3.1 Pro | 68.5 | N/A | 51.4 | N/A | N/A |
如果目标是把复杂需求稳定地落到工程产物,GPT-5.3-Codex 的关键优势是:长上下文工程记忆、面向 CLI 的 Agent 工作流、代码改写与调试闭环能力。它更像“能把活干完”的工程搭档,而不只是“会答题”的聊天模型。
某些模型在宣传里是“全能战神”,真到项目里就秒变“进度阻塞器”:规划像史诗,执行像试用版;工具会点但不会用,代码会写但不敢跑。典型症状是:PR 写得很自信,CI 报错也很自信。