打开网易新闻 查看更多图片

新智元报道

编辑:Aeneas 艾伦

【新智元导读】开源模型新王 MiniMax M2.5 震撼降临:M2.5 编码性能逼平 Claude Opus 4.6,价格却只有 1/20;1 美金 / 小时,这种尺寸和性能的模型,才能在算力短缺的时代不降智不卡顿,持续提供最好体验,成为最终王者!

国产 AI 春节档,彻底炸了。

就在昨夜,MiniMax M2.5 重磅登场。

就在今天,MiniMax 已经暴涨 16.2 %,总市值一度达到 2108 亿港元,涨至历史新高。

打开网易新闻 查看更多图片

在关键的编码基准测试中,M2.5 几乎已完全缩小与 Claude Opus 4.6 这类全球最顶尖大模型的差距!

打开网易新闻 查看更多图片

发布后,全球开发者社区再次震撼了。

打开网易新闻 查看更多图片

它不光性能媲美 Opus 4.6,还是第一个超越 Claude Sonnet 的开源模型。

打开网易新闻 查看更多图片

连 OpenClaw 之父,都赶来盛赞 MiniMax。

打开网易新闻 查看更多图片

大家纷纷惊呼:MiniMax M2.5 性能跟 Claude Opus 4.6 几乎相当,价格却砍到了后者的 1/20,这个性价比,绝了!

打开网易新闻 查看更多图片

M2.5,彻底打穿了模型的价格底线,只花 1 美元,就能以 100 TPS (Tokens Per Second) 运行 1 小时。

MiniMax M2.5 一击毙命,前端开发者的时代结束了!

打开网易新闻 查看更多图片

开放权重模型和专有模型之间的差距,已经彻底消失!MiniMax M2.5 的性能已经和 SOTA 不相上下。

打开网易新闻 查看更多图片

为什么 M2.5 这么强?

首先,它的智能体原生架构,是专为智能体生态深度优化。

另外,它还有极致的推理效率,得益于对思考链路的深度优化,它能支持 100 TPS 的超高吞吐量,推理速度达到 Claude Opus 4.6 的三倍。

可以说,直接刷新了全行业最优的性价比,打造了同性能级别模型中的价格标杆!

打开网易新闻 查看更多图片

有人对比了 Claude Opus 4.6 和 MiniMax M2.5 的办公速度,惊呼 M2.5 性能太强

不仅如此,在Excel、深度搜索、长文档摘要核心生产力场景,都处于SOTA地位。

另外,因为激活参数量仅为 10B,它作为第一梯队中参数最小的旗舰模型,在私有化部署、显存占用及推理能效比上具有压倒性优势。

打开网易新闻 查看更多图片

因为 M2.5 太火,为避免限速卡顿体验,MiniMax 团队火速扩容!

打开网易新闻 查看更多图片

实测:代码、办公、深度搜索

全方位出色

我们实测后可以发现,MiniMax M2.5 在各类开发者工具中适配度都很高,在 Claude Code、Trae、VS Code 等 IDE 中都可简单上手。

在代码生成、调试协助、多轮上下文理解上,都能与现有开发流程轻松融合。

我们先来直接问一个最近很火的「洗车」难题,已经难倒了一众国内外旗舰模型。鉴于这个问题太火了,为了避免模型已经被特意教会了这个逻辑陷阱的标准答案,我们采取了一个原创的变种问题:

我要去遛马,大草原离我家蒙古包只有 5 米,我应该自己走着去大草原还是骑马去?

据称逻辑能力最强的新旗舰模型 Claude Opus 4.6,在这个新问题上还是折戟了。

打开网易新闻 查看更多图片

而 MiniMax M2.5 则仅用 3 秒钟就给出了正确答案,同时思路也是正确的,还令人忍俊不禁。

打开网易新闻 查看更多图片

洗车测试,通过✅

在将 MiniMax M2.5 API 接入 Claude Code 后,回答是相似的,同样顺利通过了「洗车测试」。

打开网易新闻 查看更多图片

代码实测

在 Claude Code 中,MiniMax M2.5 对代码结构和工程上下文的理解非常稳定,能够准确把握函数依赖、模块边界以及已有代码风格,生成的补全和修改建议可直接落地,几乎不需要额外返工。

对于复杂逻辑的拆解和重构场景,模型给出的思路也更加工程化,贴近真实开发者的使用习惯。

先用一道 LeetCode Hard 算法题热热手,看看最基本的编程能力咋样。

给定两个大小分别为 m 和 n 的正序(从小到大)数组 nums1 和 nums2 。请你找出并返回这两个正序数组的 中位数 。

算法的时间复杂度应该为 O(log (m+n)) 。

直接将题面输入给MiniMax M2.5。

打开网易新闻 查看更多图片

仅仅 20 秒,MiniMax M2.5 就直接给出了答案。

打开网易新闻 查看更多图片

MiniMax M2.5 手拿把掐,20 秒直接一发 AC,给出了时间复杂度最低的算法,并给出了解题思路,完全可以胜任编程学习路上的热心学长助教!

打开网易新闻 查看更多图片

而 Claude Opus 4.6 尽管也在极短时间内就给出了答案,但算法的时间复杂度和空间复杂度均要高于 MiniMax M2.5 给出的算法。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

在 Trae 等 IDE 中,MiniMax M2.5 的表现同样令人惊喜。

无论是需求理解、功能拆解,还是快速生成可运行的代码原型,整体响应都非常流畅,配合工具链使用时几乎没有明显「割裂感」。

这也意味着,开发者无需为适配模型额外调整工作方式,就可以直接将其纳入现有生产流程。

比如,试着让它生成一个高端预订网站,展示一家豪华太空旅游机构,要求展示一段从平流层缓慢移动的高清地球曲率视频。

打开网易新闻 查看更多图片

接下来,下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示词下生成的网站,你能猜出来分别是谁做的吗?

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

在 3D 开发上,MiniMax M2.5 也很令人惊艳,它在仅用一个 HTML 文件的前提下,就实现了完整的 3D 卡丁车竞速体验,本身就非常高级,结构清晰,逻辑完整。

视觉上,它有那种经典街机赛车的味道——赛道比例舒服、镜头跟随自然、漂移时的动态反馈很带感,冲刺的节奏爽快。

整体风格虽然简洁,但配色和场景层次感做得很好。作为浏览器原生3DF游戏来说,完成度和表现力都相当出色。

打开网易新闻 查看更多图片

注意,如果只跑常规算法题,是测不出模型的工具级泛化能力的。为此,我们专门是设计了几道不像刷题、但极像真实开发的代码测试题。

比如下面这道题中,我们给了 M2.5 一段已有代码,然后连续给了它三个任务——

打开网易新闻 查看更多图片

在这个任务中,需要对同一段代码连续进行代码审查、代码重构和架构设计,如果是弱泛化的模型,往往就往后的问题上就会跑偏。

可以看到,M2.5 读完代码后,敏锐地一眼看出这是 Java 的 Counter 类问题——count++ 操作不是原子的。

同时它也分析出,Python parse_logs 函数缺少错误处理、没有类型提示、没有验证输入等。

接着,它重构了代码,还给出了日志规模扩大100倍的系统优化思路。

打开网易新闻 查看更多图片

在我们的要求下,它实现了完整的优化代码。

打开网易新闻 查看更多图片

总的来说,整体使用下来的感受是:MiniMax M2.5 不只是「能写代码」,而是真正适合嵌入开发者工具体系中的模型。

这种对不同 IDE、代码助手和开发平台的良好适配能力,使其在真实开发场景中的实用价值进一步放大,也为其在 To B 和开发者生态中的落地提供了扎实基础。

而且在使用中,它表现出了极强的泛化能力,在不同任务类型之间切换时,并不会明显依赖场景约束,而是快速理解任务本身的核心目标。

在复杂问题拆解、多步骤推理场景中表现尤为突出,这种泛化能力,直接提升了模型在真实生产环境中的价值。

而且,10B 的小参数加上旗舰级的能力,让每个人都能在本地跑一个旗舰级分析师。

办公场景丝滑拿捏

除了编程能力比肩 Claude Opus 4.6 之外,MiniMax M2.5 在数字化办公场景下,也有极强的应用能力。

比如,我们给它一份某公司按地区划分的销售额数据的表格,这个 Excel 可是个高难度版,存在不少隐藏坑和脏数据,比如日期格式不统一,销售数量缺失或为负数,单价缺失,退货订单未自动清零等等。

我们把这张 Excel 表格直接丢给模型,请它完成数据清洗,进行跨表关联,还要进行一系列分析汇总。

打开网易新闻 查看更多图片

可以看到,M2.5 按照要求依次完成了数据清洗,解决了日期不一致、重复订单、销售数据异常、单价缺失等问题,然后完成了跨表关联。

然后,它按要求计算出了销售额和毛利,按地区、产品类别进行了汇总,给出毛利率最低的产品类别,还判断出这个 Excel 表格不适合直接用于管理层汇报。

打开网易新闻 查看更多图片

可以看到,这次测评中,模型完整、准确地完成了提示词给出的任务,表现出扎实且系统化的 Excel 办公能力。

更重要的是,它的分析结果具备明确的业务解释与风险意识,说明 M2.5 对 Excel 的理解并非停留在函数记忆层面,而是真正具备贴近实际办公与数据分析场景的综合能力。

能清洗脏数据后给出合理建议,就意味着 AI 不再仅仅是工具,也开始成为负责任的数字化劳动力。

接下来是第二个Excel测试任务:

请它列出 2019 年至 2024 年(包括 2024 年)福布斯全球亿万富翁排名中每年排名前十的个人,需要用 Excel 表格呈现。

打开网易新闻 查看更多图片

最终,M2.5 准确完成了这个任务,给出了如下这个 Excel。

打开网易新闻 查看更多图片

要知道,很多人「会用 Excel」,但真正精通函数嵌套、VBA、Power Query、复杂财务模型的人比例并不高。

如果模型可以完成高阶的 Excel 任务,就相当于给每个人配备了一个「高级数据分析师」。

这将大大降低专业门槛,实现生产力的跃升,甚至实现软件生态的升级。

深度研究

接下来,我们测试 MiniMax M2.5 的深度研究能力。

我们要求它对最近大火的 OpenClaw 进行一次深度研究,要解释清楚核心概念、技术细节,并且从前沿性、工程可行性、生态影响等多个角度进行评估。

在提示词中我们特别强调,不允许编造事实,信息不足时要敢于承认。

打开网易新闻 查看更多图片

要知道,这样一个提示词,会强制模型暴露出不确定性处理能力、推理链条和技术判断,从而真正区分「会查资料的模型」和「会研究的模型」。

首先,模型进行了一番思考。

打开网易新闻 查看更多图片

然后,它生成一份内容详实、逻辑清晰的调查报告,让人对OpenClaw的各方面情况一目了然。

打开网易新闻 查看更多图片

可以看出,M2.5 在做深度研究时,不仅仅给出的是一种查资料型回答(信息密集,却缺乏逻辑推进),而是体现出了一种研究型回答的特征——有问题意识、有分析路径、有逻辑递进。

很明显,它建立了一个概念图谱,进行结构化拆解后,构建了一个因果推理链。这种因果推理能力和批判性思考能力,都体现了这是一个真正「会研究」的模型。

可以预见,M2.5 如此强的深度研究能力,将让每个人的研究效率指数级放大,改变整个知识生产节奏。

长文本研究

长文本处理能力已成为衡量 LLM 综合实力的关键维度之一。

从早期的 4K、8K 上下文窗口,到如今动辄百万 Token 级别的上下文支持,模型在「能装多少」这件事上突飞猛进——但「装得下」和「用得好」之间,依然存在巨大鸿沟。

我们选择了让 MiniMax M2.5 解读著名高难度数学分析教材《数学分析原理》(Rudin 著,全书约 300 页)来测试它的长文本研究能力。

教材精读与直觉化改写是一类对 LLM 综合能力要求极高的任务:模型需要读懂专业内容的数学本质,再用通俗语言重新表达——既不能丢失精度,也不能堆砌术语。

我们要求模型为每章提炼核心概念、给出直觉类比、指出常见误区,输出风格要求「像学长在咖啡馆讲课」。

提示词:

你是一位擅长用直觉和类比来解释数学的老师。我会给你一本数学分析教材(《数学分析原理》(Rudin 著))。

请你完成以下任务:

1. 找出每一章最核心的 1-3 个概念(不是罗列所有知识点,而是找到「如果只能记住一件事,应该记住什么」的那个东西)。

2. 用「说人话」的方式解释每个核心概念:

- 先用一句大白话说清楚它到底在干什么、为什么要有它

- 再用一个日常生活的类比或画面感的例子帮我建立直觉

- 最后用一两句话点明它和前后章节的关系(它从哪里来,往哪里去)

3. 指出一个最常见的误解或容易踩的坑。

要求:

假设读者是刚接触数学分析的大一学生,有高中数学基础;

不要堆砌定义和定理,重点是「为什么」和「直觉是什么」;

如果涉及公式,先解释公式在"说什么故事",再写公式本身;

语言风格:像一个很会讲课的学长在咖啡馆里给你讲明白,而不是念教科书。

完整输出结果如下:

打开网易新闻 查看更多图片

MiniMax M2.5 展现了扎实的长文档理解能力和不错的科普写作水平。

其一,数学内容的准确性与核心概念的提炼能力:每章核心概念的选取精准地抓住了 Rudin 全书主线,且能指出「调和级数发散」「偏导数存在不等于可微」等教学中反复强调的经典陷阱,说明模型确实理解了内容而非简单摘抄。

其二,「说人话」的能力:「阅兵式」类比一致收敛、「按面额分类数钱」类比勒贝格积分等堪称教科书级的好类比,既形象又未丢失数学要义,能切实帮助初学者跨越从直觉到严格定义的鸿沟。

其三,结构完整性与风格一致性:严格覆盖了提示词要求的五个模块且语言风格始终保持「学长讲课」的轻松感,末尾的全书逻辑链条总结图更是有效地帮初学者建立了全局观。

当然,我们经过仔细检查也发现其中有极少数小错误,如:

f(x)=1/x 在 (0,1] 上没有原函数.


模型仍存在进步空间。尽管如此,瑕不掩瑜。

它成功地从一本以严谨著称的数学教材中提炼出了主线脉络,并用较为准确的类比传达了核心直觉。

对于「帮数学系大一新生建立全书的知识地图进而辅助学习」这一目标,MiniMax M2.5 现在完全能够胜任。

技术突破关键:Agent RL

为什么 MiniMax M2.5 会这么强?这是因为团队围绕着 Agent RL(智能体强化学习),构建了一整套完整的技术体系。

首先,在框架层面,团队提出了原生 Agent RL 架构。

Forge 作为一个原生 Agent RL 框架,在设计上通过引入中间层完全解耦了底层训推引擎与 Agent,支持任意 Agent 的接入,从而优化了模型在 Agent 脚手架和工具上的泛化。此外,还实现了约 40 倍的训练加速。

打开网易新闻 查看更多图片

在算法层面,团队沿用了 MiniMax M1 提出的 CISPO 算法,以保障 MoE 模型在大规模强化学习训练中的稳定性。

针对 Agent 场景长上下文带来的信用分配难题,团队引入了过程奖励机制对完成质量进行全链路监控。此外,为深度对齐用户体验,团队直接估计任务在真实环境下的耗时并作为奖励函数,在模型效果与响应速度之间实现了更好的平衡。

打开网易新闻 查看更多图片

整体来看,这套 Agent RL 技术体系不仅解决了长上下文强化学习中的稳定性与效率问题,更在架构、算法与工程层面形成闭环。

正是在这些技术基础上,M2.5 实现了以上的惊艳表现。

当 M2.5 在各项核心任务上都能全面对齐 Claude Opus 4.6,这已经不再是一次简单的「模型升级」,而是一个行业信号——顶级能力正在去稀缺化。

当能力趋同,真正拉开差距的,将是系统整合能力、产品化能力,以及对真实场景的理解深度。

对于行业来说,这是一个能力平权的时代;

对于企业来说,这是一个重新定义效率边界的窗口;

对于开发者来说,这是一次前所未有的机会期。

参考资料:

MiniMax M2.5 发布:1美金/小时,真实世界工作王者

(MiniMax Agent 体验 M2.5)https://agent.minimaxi.com/

打开网易新闻 查看更多图片