对手评测 GLM-4.7

GLM-5：开源领域的革命性突破

智谱AI新一代旗舰基座模型，面向 Agentic Engineering 打造

🏆 开源 SOTA 地位 — 在 Coding 与 Agent 能力上取得开源 SOTA 表现，使用体感逼近 Claude Opus 4.5
🎯 Agentic Engineering 专家 — 擅长复杂系统工程与长程 Agent 任务，通用 Agent 助手的理想基座
🔓 完全开源与可商用 — 打破顶级 AI 能力的垄断壁垒，开发者可自由部署、微调和私有化
🧠 深度思考模式 — 支持 thinking 参数启用深度思考，最大输出 tokens 达 65536

GLM-5 代表了中国 AI 开源社区的最高水平，在保持闭源顶级模型 90%+ 能力的同时，提供完全开源和灵活部署的优势。

执行摘要

🚀

编程能力之王
GPT-5.3-Codex 在 Terminal-Bench 2.0 上以 77.3% 领先，首个能自我创建的模型

👁️

视觉理解最强
Kimi K2.5 原生多模态，OCR能力达 92.3%，MathVista 第一

💰

性价比之王
MiniMax M2.5 价格仅为同级 1/10-1/20，GLM-5 完全开源

🔧

企业级可靠性
Opus 4.6 在 40 次测试中 38 次第一，1M 上下文无对手

模型概览

GLM

GLM-5

智谱AI | 2026年2月

开源 SOTA Agentic Engineering

256K+

上下文长度

免费

开源可商用

Kimi

Kimi K2.5

Moonshot AI | 2026年2月

原生多模态 Agent Swarm

1T/32B

MoE 架构

256K

上下文长度

M2.5

MiniMax M2.5

MiniMax | 2026年2月

编程 SOTA 高性价比

100/50

TPS 版本

1/10

同级价格

Opus

Claude Opus 4.6

Anthropic | 2026年2月5日

企业级混合推理

上下文窗口

38/40

测试第一

GPT

GPT-5.3-Codex

OpenAI | 2026年

最强编程自我创建

77.3%

Terminal-Bench

56.8%

SWE-Bench Pro

Gem

Gemini 3.1 Pro

Google | 2026年2月19日

推理强 NotebookLM

77.1%

ARC-AGI-2

90.1%

MMLU-Pro

编程能力对比

SWE-Bench Pro & Terminal-Bench 2.0 对比

排名	模型	SWE-Bench Pro	Terminal-Bench 2.0	OSWorld	LiveCodeBench
1	GPT-5.3-Codex	56.8%	77.3%	64.7%	-
2	Opus 4.6	-	65.4%	72.7%	-
3	Kimi K2.5	50.7%	50.8%	-	85.0%
4	GLM-5	开源 SOTA，体感逼近 Opus 4.5
5	MiniMax M2.5	Multi-SWE-Bench 达行业最好

推理与知识能力

数学与推理基准测试对比

多模态能力对比

视觉理解基准测试

多模态排名点评

🥇 Kimi K2.5 — 原生多模态之王

OCR能力 92.3% 吊打全场，MathVista 90.1% 第一。这模型看图比人都准，简直是开了"天眼"

🥈 Gemini 3.1 Pro — Google 的老本行

MMMU-Pro 81.0% 领先，VideoMME 88.4% 强劲。毕竟是做搜索起家的，看图识字是基本功

😅 其他模型 — 视觉偏科生

GPT-5.3-Codex 和 Opus 4.6：咱们是编程模型，看图这种事...凑合能用就行吧？

Agent 与工具调用能力

BrowseComp Agent 能力对比

成本与性价比分析

🏆

性价比王者

GLM-5

完全开源 • SOTA 能力 • 零成本

💰

价格屠夫

MiniMax M2.5

仅为同级 1/10-1/20 价格

🔓

开源良心

Kimi K2.5

开源权重 + API 灵活选择

模型	输入价格	输出价格	特殊优惠	性价比
Opus 4.6	$5/M tokens	$25/M tokens	缓存90%折扣	⭐⭐⭐⭐
MiniMax M2.5	-	-	仅为同级的1/10-1/20	⭐⭐⭐⭐⭐
GLM-5	免费	免费	完全开源	⭐⭐⭐⭐⭐
Kimi K2.5	-	-	开源 + API	⭐⭐⭐⭐

按使用场景推荐

💻 专业编程与开发

GPT-5.3-Codex

Terminal-Bench 77.3%，代码能力天花板

🏢 企业级 AI Agent

Opus 4.6

可靠性最强，1M 上下文

👁️ 多模态应用开发

Kimi K2.5

原生多模态，视觉能力突出

🔓 开源/私有化部署

GLM-5

开源 SOTA，无 license 限制

💰 成本敏感项目

MiniMax M2.5

价格仅为同级 1/10

🔬 科研与学术研究

Gemini 3.1 Pro

推理能力强，NotebookLM 整合

🖥️ 计算机视觉项目

Kimi K2.5

OCRBench 92.3%，视觉理解最佳

📜 长上下文需求

Opus 4.6

1M token 上下文无对手

各模型吐槽大会

🚀 GPT-5.3-Codex — 终端操作之神

Terminal-Bench 77.3% 简直离谱，这模型估计能在服务器里自己开公司了。首个能自我创建的模型？OpenAI 你这是在培养造物主吗？

Terminal-Bench: 77.3%

🎯 Opus 4.6 — 可靠性怪兽

40 次测试拿 38 次第一？这是模型还是人肉考霸？1M 上下文能记住你小时候说过的话，比你还了解你自己

测试胜率: 38/40 = 95%

👁️ Kimi K2.5 — 视觉偏科生

原生多模态 Agent，OCR 92.3% 吊打对手。但 Terminal-Bench 只有 50.8%？这就像一个视力 5.0 的文科生被拉去做数学题...

OCRBench: 92.3%

🧠 Gemini 3.1 Pro — 推理翻倍

ARC-AGI-2 达到 77.1%，是其前代两倍。Google："不好意思，之前是藏实力"

ARC-AGI-2: 77.1%

💸 GPT-5.3-Codex — 钱包杀手

能力最强是真的，价格也是天花板级别的。想用完整功能？先掏空你的钱包。OpenAI: "我们是按能力收费，不是按token"

🐢 Kimi K2.5 — 编程弱鸡

Terminal-Bench 50.8%，这分数怎么好意思放出来？MoE 架构 1T 参数结果就这？Moonshot 你是多模态做上瘾了把编程忘了？

🌒 Gemini 3.1 Pro — 均衡大师

看起来很全能，实际上很"均衡"。编程能力？数据都没敢放出来。Google: "我们专注推理"...（潜台词：编程打不过）

📊 MiniMax M2.5 — 神秘主义者

价格只有同级 1/10， benchmark 数据？基本没有。靠情怀买还是靠实力说话？MiniMax: "我们的实力在用户心中"

🤔 GLM-5 — 体感逼近党

"体感逼近 Opus 4.5"是什么鬼？逼近就是不是超越，开源 SOTA 也是开源界的 SOTA。智谱："能打就不错了，还要啥自行车"

🏆 GLM-5 — 开源界的希望之光

完全开源！白嫖党的快乐！体感逼近 Opus 4.5，这意味着 90% 的能力 + 0% 的价格 = 无限的性价比。智谱这是在做慈善吗？

性价比指数: ∞

💰 MiniMax M2.5 — 价格屠夫

万元级预算支撑多个 Agent 全年无休运行？这是让资本家看了都流泪的价格。同级模型 1/10-1/20，这是来砸场子的吧？

价格优势: 90%

🔓 Kimi K2.5 — 稍微有点贵的开源

开源是开源，API 也要钱。但至少给了选择权，不像某些公司连个影子都不让你看到。Moonshot："我们开源是因为自信（和竞争压力）"

2026年 AI 模型格局总结

🔹 闭源三强：GPT-5.3-Codex、Opus 4.6、Gemini 3.1 Pro 各有专长
🔹 开源双雄：GLM-5、Kimi K2.5 打破垄断，提供顶级能力
🔹 性价比之王：MiniMax M2.5 以 1/10 价格实现同级能力
🔹 趋势：从单模型到 Agent Swarm，从纯文本到原生多模态