GLM-5 | Kimi K2.5 | MiniMax M2.5 | Opus 4.6 | GPT-5.3-Codex | Gemini 3.1 Pro
智谱AI新一代旗舰基座模型,面向 Agentic Engineering 打造
GLM-5 代表了中国 AI 开源社区的最高水平,在保持闭源顶级模型 90%+ 能力的同时,提供完全开源和灵活部署的优势。
| 排名 | 模型 | SWE-Bench Pro | Terminal-Bench 2.0 | OSWorld | LiveCodeBench |
|---|---|---|---|---|---|
| 1 | GPT-5.3-Codex | 56.8% | 77.3% | 64.7% | - |
| 2 | Opus 4.6 | - | 65.4% | 72.7% | - |
| 3 | Kimi K2.5 | 50.7% | 50.8% | - | 85.0% |
| 4 | GLM-5 | 开源 SOTA,体感逼近 Opus 4.5 | |||
| 5 | MiniMax M2.5 | Multi-SWE-Bench 达行业最好 | |||
OCR能力 92.3% 吊打全场,MathVista 90.1% 第一。这模型看图比人都准,简直是开了"天眼"
MMMU-Pro 81.0% 领先,VideoMME 88.4% 强劲。毕竟是做搜索起家的,看图识字是基本功
GPT-5.3-Codex 和 Opus 4.6:咱们是编程模型,看图这种事...凑合能用就行吧?
完全开源 • SOTA 能力 • 零成本
仅为同级 1/10-1/20 价格
开源权重 + API 灵活选择
| 模型 | 输入价格 | 输出价格 | 特殊优惠 | 性价比 |
|---|---|---|---|---|
| Opus 4.6 | $5/M tokens | $25/M tokens | 缓存90%折扣 | ⭐⭐⭐⭐ |
| MiniMax M2.5 | - | - | 仅为同级的1/10-1/20 | ⭐⭐⭐⭐⭐ |
| GLM-5 | 免费 | 免费 | 完全开源 | ⭐⭐⭐⭐⭐ |
| Kimi K2.5 | - | - | 开源 + API | ⭐⭐⭐⭐ |
GPT-5.3-Codex
Terminal-Bench 77.3%,代码能力天花板
Opus 4.6
可靠性最强,1M 上下文
Kimi K2.5
原生多模态,视觉能力突出
GLM-5
开源 SOTA,无 license 限制
MiniMax M2.5
价格仅为同级 1/10
Gemini 3.1 Pro
推理能力强,NotebookLM 整合
Kimi K2.5
OCRBench 92.3%,视觉理解最佳
Opus 4.6
1M token 上下文无对手
Terminal-Bench 77.3% 简直离谱,这模型估计能在服务器里自己开公司了。首个能自我创建的模型?OpenAI 你这是在培养造物主吗?
Terminal-Bench: 77.3%40 次测试拿 38 次第一?这是模型还是人肉考霸?1M 上下文能记住你小时候说过的话,比你还了解你自己
测试胜率: 38/40 = 95%原生多模态 Agent,OCR 92.3% 吊打对手。但 Terminal-Bench 只有 50.8%?这就像一个视力 5.0 的文科生被拉去做数学题...
OCRBench: 92.3%ARC-AGI-2 达到 77.1%,是其前代两倍。Google:"不好意思,之前是藏实力"
ARC-AGI-2: 77.1%能力最强是真的,价格也是天花板级别的。想用完整功能?先掏空你的钱包。OpenAI: "我们是按能力收费,不是按token"
Terminal-Bench 50.8%,这分数怎么好意思放出来?MoE 架构 1T 参数结果就这?Moonshot 你是多模态做上瘾了把编程忘了?
看起来很全能,实际上很"均衡"。编程能力?数据都没敢放出来。Google: "我们专注推理"...(潜台词:编程打不过)
价格只有同级 1/10, benchmark 数据?基本没有。靠情怀买还是靠实力说话?MiniMax: "我们的实力在用户心中"
"体感逼近 Opus 4.5"是什么鬼?逼近就是不是超越,开源 SOTA 也是开源界的 SOTA。智谱:"能打就不错了,还要啥自行车"
完全开源!白嫖党的快乐!体感逼近 Opus 4.5,这意味着 90% 的能力 + 0% 的价格 = 无限的性价比。智谱这是在做慈善吗?
性价比指数: ∞万元级预算支撑多个 Agent 全年无休运行?这是让资本家看了都流泪的价格。同级模型 1/10-1/20,这是来砸场子的吧?
价格优势: 90%开源是开源,API 也要钱。但至少给了选择权,不像某些公司连个影子都不让你看到。Moonshot:"我们开源是因为自信(和竞争压力)"