六大模型深度对比仪表盘

统计日期:2026-02-23 仅使用指定 10 个官方链接 含图片信息识别与交叉验证

结论先行:Gemini 3.1 Pro 与 Opus 4.6 在高难推理+Agent基准表现突出;MiniMax M2.5 在价格与吞吐最激进;GPT-5.3-Codex、GLM-5、Kimi K2.5 在工程执行链路上各有长板。

核心观察

最高 Terminal-Bench 2.0(公开)
Gemini 3.1 Pro: 68.5%
最高 SWE-Bench Verified(公开)
MiniMax M2.5: 80.2%
最长公开上下文
Opus 4.6 / GPT-5.3-Codex: 1M
最低公开输出价(每百万 token)
MiniMax M2.5: $2.4

横向硬指标表

模型 Terminal-Bench 2.0 SWE-Bench Verified HLE (with tools) 上下文窗口 公开价格(输出/$每百万)
GLM-5 56.2 77.8 N/A 200K N/A
Kimi K2.5 50.8 76.8 50.2 256K N/A
MiniMax M2.5 N/A 80.2 N/A N/A $2.4
Claude Opus 4.6 65.4 N/A N/A 1M (beta) $25
GPT-5.3-Codex 64.7 74.9 36.8 1M N/A
Gemini 3.1 Pro 68.5 N/A 51.4 N/A N/A

可视化对比

综合指数(推导,非官方)

Terminal-Bench 2.0(越高越好)

SWE-Bench Verified(越高越好)

公开输出成本($/1M,越低越好)

图片信息识别结论

Kimi K2.5
  • 图片标注显示 Agent Swarm 架构:Orchestrator + 并行子Agent。
  • 训练曲线图描述显示准确率与并行度同时上升。
  • 基准对比图描述显示其在 BrowseComp/Wide Search 的优势叙事。
Anthropic Opus 4.6
  • 图片 alt 明确出现 GDPval-AA、DeepSearchQA、Terminal-Bench 对比图。
  • 与正文数值口径互证,图表并非装饰而是关键证据。
Gemini 3.1 Pro
  • 存在 benchmark 对比动图与多组“复杂可交互代码产物”示例图。
  • 与 ARC-AGI-2、agentic coding 叙事一致。
MiniMax M2.5
  • 图像示例覆盖网站、演示稿、3D 交互,强调可交付产物导向。
  • 多脚手架 Logo 组合体现工程生态兼容策略。

自身优势总结(GPT-5.3-Codex)

如果目标是把复杂需求稳定地落到工程产物,GPT-5.3-Codex 的关键优势是:长上下文工程记忆、面向 CLI 的 Agent 工作流、代码改写与调试闭环能力。它更像“能把活干完”的工程搭档,而不只是“会答题”的聊天模型。

搞笑吐槽区(文明版)

某些模型在宣传里是“全能战神”,真到项目里就秒变“进度阻塞器”:规划像史诗,执行像试用版;工具会点但不会用,代码会写但不敢跑。典型症状是:PR 写得很自信,CI 报错也很自信。

查看完整报告 (report.md)