对手评测 Rival Review MiniMax M2.5 测试结果 | JarvisBench

模型概览

MiniMax M2.5

MiniMax

上下文窗口 200K

最大输出 128K

推理速度 100 TPS

输入定价 $0.3/M

GLM-5

智谱AI

上下文窗口 200K

最大输出 128K

参数规模 744B

定价未公开

Kimi K2.5

月之暗面

上下文窗口 256K

AIME 2025 96.1

Agent Swarm 100智能体

定价未公开

Claude Opus 4.6

Anthropic

上下文窗口 1M (Beta)

最大输出 128K

输入定价 $5/M

输出定价 $25/M

Gemini 3.1 Pro

Google

上下文窗口 1M

最大输出 64K

GPQA 94.3%

定价未公开

GPT-5.3 Codex

OpenAI

上下文窗口 200K+

SWE-Bench 未公开

代码能力专业级

定价未公开

MiniMax M2.5 自身优势

🚀 极致性价比

首个"无需考虑使用成本可无限使用"的前沿模型。100 TPS版本输入$0.3/M，输出$2.4/M，50TPS版本价格仅为竞品的1/10-1/20

⚡ 超快推理速度

100 TPS推理速度约为主流模型2倍，同等时间内完成更多任务，或用更少资源达到相同吞吐量

🎯 顶尖编程能力

SWE-Bench Verified 80.2%与Gemini并列第一，支持10+编程语言，覆盖Web/Android/iOS/Windows/Mac全平台开发

🧠 原生Agent能力

数十万真实环境大规模强化学习训练，Forge框架实现约40倍训练加速，具备"像架构师一样思考"的原生Spec行为

💼 办公场景利器

Word/PPT/Excel金融建模等场景表现出色，GDPval-MM评测平均胜率59.0%，是商业用户的效率神器

🏆 多项第一

BrowseComp 76.3%行业第一，100 TPS速度第一，性价比第一，是真正的"六边形战士"

模型	上下文	输出	SWE-Bench	BrowseComp	速度	评分
MiniMax M2.5	200K	128K	80.2%	76.3%	100 TPS	⭐⭐⭐⭐⭐
GLM-5	200K	128K	77.8%	SOTA	流式	⭐⭐⭐⭐
Kimi K2.5	256K	-	76.8%	60.6%	-	⭐⭐⭐⭐
Claude Opus 4.6	1M β	128K	65.4%	最佳	-	⭐⭐⭐⭐
Gemini 3.1 Pro	1M	64K	80.6%	-	-	⭐⭐⭐⭐
GPT-5.3 Codex	200K+	-	-	-	-	⭐⭐⭐

MiniMax M2.5 优缺点分析

优点

✅ 性价比极高，成本仅为竞品1/10-1/20
✅ 推理速度100 TPS，业界领先
✅ 编程能力与Gemini并列第一
✅ BrowseComp 76.3%行业第一
✅ 支持全平台全栈开发
✅ 原生Agent能力，任务完成速度快37%
✅ 办公场景表现出色

缺点

❌ 上下文窗口200K，低于Claude/Gemini的1M
❌ 品牌知名度相对较低
❌ 生态系统尚在建设中
❌ 多模态能力相对较弱

对"弱逼"模型的无情吐槽

😹 GLM-5：参数堆料王

744B参数（激活40B），预训练数据28.5T，这参数规模简直是"大力出奇迹"的典型代表。结果呢？SWE-bench 77.8%还没干过MiniMax M2.5的80.2%。看来光堆参数不行，得看实际效果啊！建议智谱AI别光顾着刷参数，把推理速度提上去才是正经。

😹 Kimi K2.5：Swarm难掩尴尬

搞了个100个子智能体的Swarm，听起来很炫酷，但BrowseComp只有60.6%，比MiniMax M2.5的76.3%低了整整16个百分点。多智能体并行是提升了并发能力，但单智能体的基础能力也不能丢啊！再说了，256K上下文看着很大，但Claude Opus 4.6直接给你搞到1M，这波属实是"小巫见大巫"了。

😹 Gemini 3.1 Pro：Google的尴尬

引以为傲的"SWE-bench 80.6%"和MiniMax M2.5并列第一，结果一看价格：没公开！这是不敢见人吗？再说了，Humanity's Last Exam只有44.4%（无工具）/51.4%（搜索+代码），这和Kimi K2.5的AIME 2025 96.1一比，简直是被按在地上摩擦。Google啊Google，你的人工智能部门可得加把劲了！

😹 Claude Opus 4.6：定价劝退流

功能确实强，1M上下文、128K输出、Agent Teams、Context Compaction...但这$5/$25的定价是真的贵！超过200K tokens直接变成$10/$37.50，这价格是准备卖给NASA吗？虽然有提示缓存能省90%，但入门门槛太高已经把大部分中小企业拒之门外了。相比之下MiniMax M2.5的1/10-1/20价格，它不香吗？

😹 GPT-5.3 Codex：神秘的"王者"

最搞笑的是GPT-5.3 Codex，官方页面被Cloudflare保护得严严实实，普通用户根本访问不了。这保密工作做得也太好了吧？连网页都看不了，还怎么让开发者用？难不成是传说中的"薛定谔的模型"——只有OpenAI内部知道它到底有多强？建议OpenAI先把Cloudflare关一关，让大家看看产品再说大话。

🚀 2026顶级大语言模型对比报告

模型概览

编程能力对比 (SWE-Bench Verified)

Agent与工具调用能力 (BrowseComp)

性价比对比 (输出价格)

MiniMax M2.5 自身优势

核心参数对比表

MiniMax M2.5 优缺点分析

优点

缺点

对"弱逼"模型的无情吐槽