
谁能想到,把旗舰级代码能力塞进 10B 的小模型里,只要 1 美刀?
就在昨天,MiniMax M2.5 正式开源。
在旗舰模型动辄 70B+ 的当下,这个体量显得相当另类。
但就是这区区 10B 激活参数,却在极度考验代码逻辑的 SWE-Bench Verified 榜单上拿下 80.2% 的 SOTA 成绩,在 Multi-SWE-Bench 上更是以 51.3% 位居榜首,直接硬刚 Opus 4.6 和 GPT-5.2。
![图片[2]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215192748895-1771154868-d6c781c8b0c8ed411fcc88a018c70d39.png)
〓 在编程、搜索等多项核心榜单上,M2.5 不仅越级反杀,更以绝对优势刷新了 SOTA 纪录
更让人心动的是它的边际成本。连续高强度工作一小时,仅需 1 美元。
![图片[3]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215192750172-1771154870-773cdb2f679956d5d0bf56804597ec62.jpeg)
〓 在保持 59% 高胜率的同时,M2.5 的成本仅为竞品的几十分之一
巨大的参数/性能反差,难免让人怀疑数据的含金量。
为验证其实力,我们避开常规问答,直接用长文本逻辑构建和数理推演这两个学术深水区进行压测。
![图片[4]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251208235641526-1765209401-fbfd139e91f52781a670bb6ed101f4c3-scaled.png)
Case 1:交互式论文解读站
作为专注 AI 前沿的学术平台,我们跳过常规测试,第一时间向 M2.5 投喂了一份 135 页的综述论文。
Agentic Reasoning for Large Language Models:
https://arxiv.org/pdf/2601.12538
任务指令非常直接,也非常“甲方”:不要摘要,不要大纲。请像一个全栈工程师一样,将这篇 PDF 重构为一个具备交互式目录的现代化 Web 看板。
我们刻意模糊了细节,将数据清洗、架构设计到代码落地的全流程,完全交给 M2.5 自主决策。
令人意外的不仅是准确度,更是恐怖的交付速度。
面对 135 页的超长综述,M2.5 没有漫长的推理等待。
实测数据显示:仅耗时 5.9 秒。
在这不到 6 秒的时间里,它完成了从理解论文、拆解需求、设计 UI 到编写全套代码的完整闭环。
![图片[19]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215192756157-1771154876-c175de498d5949e56313bcdcc25bc677.gif)
〓 阅读 135 页论文并生成全栈代码,端到端仅耗时 5.9 秒
除了 Evolution Roadmap 模块因 Mermaid 版本冲突报错外,HTML 骨架、深色模式配色与核心逻辑全部一次成型。
我们将报错信息回传,它迅速定位依赖冲突,给出了替代方案:直接移除 Mermaid 相关代码,改用标准 HTML 和 CSS 展示演进阶段。
![图片[20]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215192802951-1771154882-c7f80bda453bf6833f5df4c87716ef63.png)
〓 分析错误并提出纯 HTML 替代方案
修复 bug 只是热身。为了探底逻辑上限,我们追加了两个进阶需求:
1. 提取 Benchmark 数据绘制统计卡片;
2. 在右下角集成 AI 问答助手,并要求 M2.5 将论文核心算法硬编码进 JS 知识库。
![图片[35]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215204254188-1771159374-3b8a700b1f09508c501927d3952a64f4.gif)
〓 AI 问答助手代码细节:逻辑封装极其严密,甚至自动构建了完整的本地知识库结构
最终生成的单文件 HTML 效果如下:
左侧目录精准复刻了论文层级,底部则自动提取了全文数据,生成了基于 ECharts 的动态环形图,交互颗粒度极其细腻。
更有意思的是右下角的 AI 问答助手,无论是 POMDP 的建模意义还是 GRPO 算法,它都能信手拈来,对答如流,交互体验相当丝滑。
从 PDF 到交互式网页,M2.5 展现了极强的长文本 -> 结构化代码转化能力。
![图片[50]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251215190818681-1765796898-f6159061e56206da5ddc8ed1fcbecbb1-scaled.png)
Case 2:数理逻辑可视化
搞定工程代码不算完,我们再给它上一道硬菜:数学可视化。
我们选择了 Manim(基于 Python 的数学动画引擎),并指定基于开源库 manim_skill 进行开发。
先看向量点积(Dot Product)。M2.5 生成的代码精准还原了投影的几何含义。
注意向量 在 上的投影变化及数值翻转,模型代码正确,坐标系的动态映射也相当精准。
紧接着,我们测试经典的线性回归(Linear Regression)。
模型构建了一个 y=mx+c 的拟合直线,并用动态红线(Residuals)直观展示了预测值与真实数据间的残差。
随着优化进行,M2.5 生成的代码精准控制了直线的逼近过程,将抽象的最小二乘法或误差最小化过程转化为了直观的几何动画。
这证明它不仅理解数学公式,更懂得如何用可视化语言解释拟合的本质。
![图片[65]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215204308560-1771159388-68d74c951d33cd5d994324f32cacd5d7-scaled.png#imgIndex=6)
技术揭秘:为什么 M2.5 能打?
一个 10B 模型,逻辑推理和代码生成何以对标旗舰?
根据官方披露的技术细节,核心在于其训练范式变革。
1. 原生 Spec 行为
在 Case 1 的网页重构中,M2.5 之所以能自主搞定架构,是因为它具备了像架构师一样思考的能力。
不同于普通模型上来就写代码,M2.5 在动手前会演化出原生的 Spec 行为——主动拆解功能、结构和 UI 设计,这种谋定而后动的特性,让它在复杂任务中表现得极稳。
2. 过程奖励与 CISPO 算法
针对 MoE 模型在大规模训练中的稳定性难题 ,M2.5 沿用了 CISPO 算法。在此基础上,引入了两类关键 Reward:
过程奖励:全链路监控思考逻辑,不只奖励结果正确;
耗时奖励:直接将任务完成耗时纳入奖励函数,迫使模型在保持智能的同时,学会以最快路径解决问题。
3. Forge 原生 Agent RL 框架
![图片[80]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215204311385-1771159391-6ed59eefd233601034c3b1c341fd3b65.jpeg)
![图片[81]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215204311385-1771159391-6ed59eefd233601034c3b1c341fd3b65.jpeg)
〓 Forge 架构:彻底解耦底层引擎与上层交互,实现 40 倍训练加速
工程级极致优化:为了解决大规模 Agent 训练的效率瓶颈,M2.5 打出了两记组合拳:
IO 层面:引入 Windowed FIFO 调度策略,在滑动窗口内异步读取,完美解决了传统 RL 训练中的队头阻塞(HoL Blocking)问题;
计算层面:针对 Agent 场景大量重复的前缀(System Prompt),采用树状合并(Tree Attention)策略,实现了约 40 倍训练加速。
![图片[95]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260215204314960-1771159394-1f283170704e595d51c2ada41f6abc6b-scaled.png)
测完这两轮,M2.5 给我们的感觉,早已超越了一个便宜好用的工具。
我们习惯用参数量来丈量智能的边界,认为只有千亿模型才配谈逻辑。但 M2.5 证明了真正的智能,不在于海量的通识记忆,而在于对特定问题的精准狙击。
从硬核的科研代码,到严谨的金融法律文档,再到日常办公琐事,它不再是那个需要你费力调教的实习生,而是一个懂代码、懂业务、且不知疲倦的硅基合伙人。
不再需要昂贵的算力堆砌,也不再有漫长的等待。未来的范式是随时随地、不知疲倦的稳定产出。
你负责定义问题与价值,它负责以极低的边际成本,在后台稳定地调动一切资源——持续、快速、完美地交付。
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
![图片[124]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260205183414635-1770287654-d178736af92cc0d54c26d3519ef28e17.jpeg)
<原文链接:https://mp.weixin.qq.com/s/k2FITtkknaW6nooO0LIRew


















暂无评论内容