谁能想到，把旗舰级代码能力塞进 10B 的小模型里，只要 1 美刀？

就在昨天，MiniMax M2.5 正式开源。

在旗舰模型动辄 70B+ 的当下，这个体量显得相当另类。

但就是这区区 10B 激活参数，却在极度考验代码逻辑的 SWE-Bench Verified 榜单上拿下 80.2% 的 SOTA 成绩，在 Multi-SWE-Bench 上更是以 51.3% 位居榜首，直接硬刚 Opus 4.6 和 GPT-5.2。

〓在编程、搜索等多项核心榜单上，M2.5 不仅越级反杀，更以绝对优势刷新了 SOTA 纪录

更让人心动的是它的边际成本。连续高强度工作一小时，仅需 1 美元。

〓在保持 59% 高胜率的同时，M2.5 的成本仅为竞品的几十分之一

巨大的参数/性能反差，难免让人怀疑数据的含金量。

为验证其实力，我们避开常规问答，直接用长文本逻辑构建和数理推演这两个学术深水区进行压测。

图片[5]-MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师-AI Express News

Case 1：交互式论文解读站

作为专注 AI 前沿的学术平台，我们跳过常规测试，第一时间向 M2.5 投喂了一份 135 页的综述论文。

Agentic Reasoning for Large Language Models:

https://arxiv.org/pdf/2601.12538

任务指令非常直接，也非常“甲方”：不要摘要，不要大纲。请像一个全栈工程师一样，将这篇 PDF 重构为一个具备交互式目录的现代化 Web 看板。

我们刻意模糊了细节，将数据清洗、架构设计到代码落地的全流程，完全交给 M2.5 自主决策。

令人意外的不仅是准确度，更是恐怖的交付速度。

面对 135 页的超长综述，M2.5 没有漫长的推理等待。

实测数据显示：仅耗时 5.9 秒。

在这不到 6 秒的时间里，它完成了从理解论文、拆解需求、设计 UI 到编写全套代码的完整闭环。

〓阅读 135 页论文并生成全栈代码，端到端仅耗时 5.9 秒

除了 Evolution Roadmap 模块因 Mermaid 版本冲突报错外，HTML 骨架、深色模式配色与核心逻辑全部一次成型。

我们将报错信息回传，它迅速定位依赖冲突，给出了替代方案：直接移除 Mermaid 相关代码，改用标准 HTML 和 CSS 展示演进阶段。

图片[5]-MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师-AI Express News

〓分析错误并提出纯 HTML 替代方案

修复 bug 只是热身。为了探底逻辑上限，我们追加了两个进阶需求：

1. 提取 Benchmark 数据绘制统计卡片；

2. 在右下角集成 AI 问答助手，并要求 M2.5 将论文核心算法硬编码进 JS 知识库。

图片[5]-MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师-AI Express News

〓 AI 问答助手代码细节：逻辑封装极其严密，甚至自动构建了完整的本地知识库结构

最终生成的单文件 HTML 效果如下：

左侧目录精准复刻了论文层级，底部则自动提取了全文数据，生成了基于 ECharts 的动态环形图，交互颗粒度极其细腻。

更有意思的是右下角的 AI 问答助手，无论是 POMDP 的建模意义还是 GRPO 算法，它都能信手拈来，对答如流，交互体验相当丝滑。

从 PDF 到交互式网页，M2.5 展现了极强的长文本 -> 结构化代码转化能力。

Case 2：数理逻辑可视化

搞定工程代码不算完，我们再给它上一道硬菜：数学可视化。

我们选择了 Manim（基于 Python 的数学动画引擎），并指定基于开源库 manim_skill 进行开发。

先看向量点积（Dot Product）。M2.5 生成的代码精准还原了投影的几何含义。

注意向量在上的投影变化及数值翻转，模型代码正确，坐标系的动态映射也相当精准。

紧接着，我们测试经典的线性回归（Linear Regression）。

模型构建了一个 y=mx+c 的拟合直线，并用动态红线（Residuals）直观展示了预测值与真实数据间的残差。

随着优化进行，M2.5 生成的代码精准控制了直线的逼近过程，将抽象的最小二乘法或误差最小化过程转化为了直观的几何动画。

这证明它不仅理解数学公式，更懂得如何用可视化语言解释拟合的本质。

技术揭秘：为什么 M2.5 能打？

一个 10B 模型，逻辑推理和代码生成何以对标旗舰？

根据官方披露的技术细节，核心在于其训练范式变革。

1. 原生 Spec 行为

在 Case 1 的网页重构中，M2.5 之所以能自主搞定架构，是因为它具备了像架构师一样思考的能力。

不同于普通模型上来就写代码，M2.5 在动手前会演化出原生的 Spec 行为——主动拆解功能、结构和 UI 设计，这种谋定而后动的特性，让它在复杂任务中表现得极稳。

2. 过程奖励与 CISPO 算法

针对 MoE 模型在大规模训练中的稳定性难题，M2.5 沿用了 CISPO 算法。在此基础上，引入了两类关键 Reward：

过程奖励：全链路监控思考逻辑，不只奖励结果正确；
耗时奖励：直接将任务完成耗时纳入奖励函数，迫使模型在保持智能的同时，学会以最快路径解决问题。

3. Forge 原生 Agent RL 框架

图片[5]-MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师-AI Express News

〓 Forge 架构：彻底解耦底层引擎与上层交互，实现 40 倍训练加速

工程级极致优化：为了解决大规模 Agent 训练的效率瓶颈，M2.5 打出了两记组合拳：

IO 层面：引入 Windowed FIFO 调度策略，在滑动窗口内异步读取，完美解决了传统 RL 训练中的队头阻塞（HoL Blocking）问题；
计算层面：针对 Agent 场景大量重复的前缀（System Prompt），采用树状合并（Tree Attention）策略，实现了约 40 倍训练加速。

图片[5]-MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师-AI Express News

结语：重塑生产力范式

测完这两轮，M2.5 给我们的感觉，早已超越了一个便宜好用的工具。

我们习惯用参数量来丈量智能的边界，认为只有千亿模型才配谈逻辑。但 M2.5 证明了真正的智能，不在于海量的通识记忆，而在于对特定问题的精准狙击。

从硬核的科研代码，到严谨的金融法律文档，再到日常办公琐事，它不再是那个需要你费力调教的实习生，而是一个懂代码、懂业务、且不知疲倦的硅基合伙人。

不再需要昂贵的算力堆砌，也不再有漫长的等待。未来的范式是随时随地、不知疲倦的稳定产出。

你负责定义问题与价值，它负责以极低的边际成本，在后台稳定地调动一切资源——持续、快速、完美地交付。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

图片[5]-MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师-AI Express News

<原文链接：https://mp.weixin.qq.com/s/k2FITtkknaW6nooO0LIRew

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

MiniMax M2.5生产力实测：10B的“小”身板里，藏着一位全栈架构师

一个 10B 模型，逻辑推理和代码生成何以对标旗舰？

根据官方披露的技术细节，核心在于其训练范式变革。

1. 原生 Spec 行为

在 Case 1 的网页重构中，M2.5 之所以能自主搞定架构，是因为它具备了像架构师一样思考的能力。

不同于普通模型上来就写代码，M2.5 在动手前会演化出原生的 Spec 行为——主动拆解功能、结构和 UI 设计，这种谋定而后动的特性，让它在复杂任务中表现得极稳。

2. 过程奖励与 CISPO 算法

针对 MoE 模型在大规模训练中的稳定性难题 ，M2.5 沿用了 CISPO 算法。在此基础上，引入了两类关键 Reward：

过程奖励：全链路监控思考逻辑，不只奖励结果正确；

耗时奖励：直接将任务完成耗时纳入奖励函数，迫使模型在保持智能的同时，学会以最快路径解决问题。

3. Forge 原生 Agent RL 框架

请登录后发表评论

针对 MoE 模型在大规模训练中的稳定性难题，M2.5 沿用了 CISPO 算法。在此基础上，引入了两类关键 Reward：