对手评测 Rival Review OpenAI Codex 5.3 测试结果 | JarvisBench

核心观察

最高 Terminal-Bench 2.0（公开）

Gemini 3.1 Pro: 68.5%

最高 SWE-Bench Verified（公开）

MiniMax M2.5: 80.2%

最长公开上下文

Opus 4.6 / GPT-5.3-Codex: 1M

最低公开输出价（每百万 token）

MiniMax M2.5: $2.4

模型	Terminal-Bench 2.0	SWE-Bench Verified	HLE (with tools)	上下文窗口	公开价格（输出/$每百万）
GLM-5	56.2	77.8	N/A	200K	N/A
Kimi K2.5	50.8	76.8	50.2	256K	N/A
MiniMax M2.5	N/A	80.2	N/A	N/A	$2.4
Claude Opus 4.6	65.4	N/A	N/A	1M (beta)	$25
GPT-5.3-Codex	64.7	74.9	36.8	1M	N/A
Gemini 3.1 Pro	68.5	N/A	51.4	N/A	N/A

Kimi K2.5

Anthropic Opus 4.6

Gemini 3.1 Pro

MiniMax M2.5

如果目标是把复杂需求稳定地落到工程产物，GPT-5.3-Codex 的关键优势是：长上下文工程记忆、面向 CLI 的 Agent 工作流、代码改写与调试闭环能力。它更像“能把活干完”的工程搭档，而不只是“会答题”的聊天模型。

某些模型在宣传里是“全能战神”，真到项目里就秒变“进度阻塞器”：规划像史诗，执行像试用版；工具会点但不会用，代码会写但不敢跑。典型症状是：PR 写得很自信，CI 报错也很自信。