MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师

图片
 

谁能想到,把旗舰级代码能力塞进 10B 的小模型里,只要 1 美刀?

 

就在昨天,MiniMax M2.5 正式开源。

 

在旗舰模型动辄 70B+ 的当下,这个体量显得相当另类。

 

但就是这区区 10B 激活参数,却在极度考验代码逻辑的 SWE-Bench Verified 榜单上拿下 80.2% 的 SOTA 成绩,在 Multi-SWE-Bench 上更是以 51.3% 位居榜首,直接硬刚 Opus 4.6 和 GPT-5.2。

 

 

图片[2]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 在编程、搜索等多项核心榜单上,M2.5 不仅越级反杀,更以绝对优势刷新了 SOTA 纪录

 

 

更让人心动的是它的边际成本。连续高强度工作一小时,仅需 1 美元。

 

 

图片[3]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 在保持 59% 高胜率的同时,M2.5 的成本仅为竞品的几十分之一

 

 

巨大的参数/性能反差,难免让人怀疑数据的含金量。

 

为验证其实力,我们避开常规问答,直接用长文本逻辑构建和数理推演这两个学术深水区进行压测。

 

图片[4]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

Case 1:交互式论文解读站

作为专注 AI 前沿的学术平台,我们跳过常规测试,第一时间向 M2.5 投喂了一份 135 页的综述论文。

 

Agentic Reasoning for Large Language Models:

https://arxiv.org/pdf/2601.12538

 

任务指令非常直接,也非常“甲方”:不要摘要,不要大纲。请像一个全栈工程师一样,将这篇 PDF 重构为一个具备交互式目录的现代化 Web 看板。

 

我们刻意模糊了细节,将数据清洗、架构设计到代码落地的全流程,完全交给 M2.5 自主决策。

 

令人意外的不仅是准确度,更是恐怖的交付速度。

 

面对 135 页的超长综述,M2.5 没有漫长的推理等待。

 

实测数据显示:仅耗时 5.9 秒。

 

在这不到 6 秒的时间里,它完成了从理解论文拆解需求设计 UI 编写全套代码的完整闭环。

 

 

图片[19]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 阅读 135 页论文并生成全栈代码,端到端仅耗时 5.9 秒

 

除了 Evolution Roadmap 模块因 Mermaid 版本冲突报错外,HTML 骨架、深色模式配色与核心逻辑全部一次成型

我们将报错信息回传,它迅速定位依赖冲突,给出了替代方案:直接移除 Mermaid 相关代码,改用标准 HTML 和 CSS 展示演进阶段。

 

 

图片[20]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 分析错误并提出纯 HTML 替代方案

 

修复 bug 只是热身。为了探底逻辑上限,我们追加了两个进阶需求

 

1. 提取 Benchmark 数据绘制统计卡片

 

2. 在右下角集成 AI 问答助手,并要求 M2.5 将论文核心算法硬编码进 JS 知识库。

 

 

图片[35]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 AI 问答助手代码细节:逻辑封装极其严密,甚至自动构建了完整的本地知识库结构

最终生成的单文件 HTML 效果如下:

 

 

 

左侧目录精准复刻了论文层级,底部则自动提取了全文数据,生成了基于 ECharts 的动态环形图,交互颗粒度极其细腻。

 

更有意思的是右下角的 AI 问答助手,无论是 POMDP 的建模意义还是 GRPO 算法,它都能信手拈来,对答如流,交互体验相当丝滑。

 

 

从 PDF 到交互式网页,M2.5 展现了极强的长文本 -> 结构化代码转化能力。

 

图片[50]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

Case 2:数理逻辑可视化

搞定工程代码不算完,我们再给它上一道硬菜:数学可视化

 

我们选择了 Manim(基于 Python 的数学动画引擎),并指定基于开源库 manim_skill 进行开发。

 

先看向量点积(Dot Product)。M2.5 生成的代码精准还原了投影的几何含义。

 

 

 

注意向量  在  上的投影变化及数值翻转,模型代码正确,坐标系的动态映射也相当精准。

紧接着,我们测试经典的线性回归(Linear Regression)

 

 

模型构建了一个 y=mx+c 的拟合直线,并用动态红线(Residuals)直观展示了预测值与真实数据间的残差。

 

随着优化进行,M2.5 生成的代码精准控制了直线的逼近过程,将抽象的最小二乘法或误差最小化过程转化为了直观的几何动画。

 

这证明它不仅理解数学公式,更懂得如何用可视化语言解释拟合的本质。

 

 

图片[65]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

技术揭秘:为什么 M2.5 能打?

一个 10B 模型,逻辑推理和代码生成何以对标旗舰?

 

根据官方披露的技术细节,核心在于其训练范式变革

 

1. 原生 Spec 行为

 

在 Case 1 的网页重构中,M2.5 之所以能自主搞定架构,是因为它具备了像架构师一样思考的能力。

 

不同于普通模型上来就写代码,M2.5 在动手前会演化出原生的 Spec 行为——主动拆解功能、结构和 UI 设计,这种谋定而后动的特性,让它在复杂任务中表现得极稳。

 

 

2. 过程奖励与 CISPO 算法

 

针对 MoE 模型在大规模训练中的稳定性难题 ,M2.5 沿用了 CISPO 算法。在此基础上,引入了两类关键 Reward:

  • 过程奖励:全链路监控思考逻辑,不只奖励结果正确;

  • 耗时奖励:直接将任务完成耗时纳入奖励函数,迫使模型在保持智能的同时,学会以最快路径解决问题。

 

 

3. Forge 原生 Agent RL 框架

 

 

图片[80]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[81]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 Forge 架构:彻底解耦底层引擎与上层交互,实现 40 倍训练加速

 

 

工程级极致优化:为了解决大规模 Agent 训练的效率瓶颈,M2.5 打出了两记组合拳:

  • IO 层面:引入 Windowed FIFO 调度策略,在滑动窗口内异步读取,完美解决了传统 RL 训练中的队头阻塞(HoL Blocking)问题;

  • 计算层面:针对 Agent 场景大量重复的前缀(System Prompt),采用树状合并(Tree Attention)策略,实现了约 40 倍训练加速。

 

 

图片[95]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 
结语:重塑生产力范式

 

测完这两轮,M2.5 给我们的感觉,早已超越了一个便宜好用的工具。

 

我们习惯用参数量来丈量智能的边界,认为只有千亿模型才配谈逻辑。但 M2.5 证明了真正的智能,不在于海量的通识记忆,而在于对特定问题的精准狙击。

 

从硬核的科研代码,到严谨的金融法律文档,再到日常办公琐事,它不再是那个需要你费力调教的实习生,而是一个懂代码、懂业务、且不知疲倦的硅基合伙人

 

不再需要昂贵的算力堆砌,也不再有漫长的等待。未来的范式是随时随地、不知疲倦的稳定产出

 

你负责定义问题与价值,它负责以极低的边际成本,在后台稳定地调动一切资源——持续、快速、完美地交付

 

 

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

 

·
图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

 

图片[124]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News图片[5]-MiniMax M2.5生产力实测:10B的“小”身板里,藏着一位全栈架构师-AI Express News

<原文链接:https://mp.weixin.qq.com/s/k2FITtkknaW6nooO0LIRew

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容