![图片[1]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260108225817160-1767884297-3548e8046d4c387cd5b8d170e4c42645.gif)
![图片[2]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319013611731-1773855371-2a9a04ddb9d99a07cb85465a3c2e8504.jpeg)
北京时间 3月18日,月之暗面创始人杨植麟在英伟达GTC 2026现场发表了主题演讲,其中一张 Kimi Scaling 的路线图,引起了业界的注意。
![图片[3]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319013613480-1773855373-05288236c248efcd8e20237ba5826d75.png)
他表示,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。
![图片[4]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319013615351-1773855375-cfba7ef81a01ad6420ba23c89944eeb2.png)
继今年1月底正式发布KimiK2.5以后,杨植麟在演讲中首次系统性地披露了该模型背后的技术路线图。
他将Kimi的进化逻辑归纳为三个维度的共振:Token效率、长上下文以及智能体集群(AgentSwarms)。
杨植麟:单纯堆算力不够,必须重构“底层基石”
前天,月之暗面一篇重磅论文:《𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔》轰动业界,可以说是给AI底层架构动了一场“关键手术”,这与彼岸的硅谷不少 AI Lab 堆算力的做法形成了鲜明的对比。
在Scaling Law横扫一切的今天,杨植麟在演讲开始部分,冷静地指出:我们不能只靠堆算力。
杨植麟认为,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。
他直言不讳地提出,现有的很多技术标准其实是八九年前的“老古董”,已经成了进化的阻碍。
针对那个统治了AI界近十年的Transformer架构,Kimi掏出了手术刀:
挑战全注意力机制: 推出基于 KDA 架构的 Kimi Linear,打破了“所有层必须使用全注意力”的教条。
重塑残差连接: 引入 Attention Residuals 方案。
![图片[5]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319013617184-1773855377-c7dd684a5b9f369ecfc45e0d1e424022.png)
这一改动直接惊动了大神 Karpathy 和马斯克。Karpathy 感叹我们对《Attention is All You Need》的理解还不够,马斯克则公开评价:“Kimi这项工作令人印象深刻。”
![图片[6]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319013619981-1773855379-cbb483b844a46e49eeeb2e9bc27083fc.png)
Kimi的进化逻辑:从单兵作战到“智能体集群”
Kimi的技术进化逻辑,被归纳为三个维度的共振:Token效率、长上下文、智能体集群(Agent Swarms)。
在杨植麟看来,当前的Scaling不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。
未来的AI不再是孤胆英雄,而是“集团军”。
通过全新的 Orchestrator 机制,Kimi K2.5 可以将复杂任务拆解给几十个子 Agent 并行处理,并通过全新的并行 RL 奖励函数,彻底解决协作中的“串行塌缩”问题。
范式转移:在“缩放阶梯”上挖金矿
演讲最后,杨植麟谈到了一个深刻的洞察:AI研究的范式变了。
他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。
而现在由于拥有了足够的资源和“缩放阶梯(Scaling Ladder)”,研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。
![图片[7]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319013621126-1773855381-5718cb5809090177944e6aeff1bbd18c.png)
不到半年,估值跳涨超4倍
据悉,目前月之暗面Kimi正以投前估值180亿美元(约合人民币1200亿元),进行新一轮10亿美元融资。
约一个月前,Kimi刚完成逾7亿美元的融资,当时估值为100亿美元;而在去年底一轮5亿美元的融资中,其估值为43亿美元。
从43亿到180亿,Kimi用不到半年的时间,完成了全球AI圈最疯狂的跳跃。
路径:坚持自研+开源
Kimi的野心不止于自研。杨植麟表示,将继续坚持开源路径,将 MuonClip、Kimi Linear 等底层创新贡献给社区。
月之暗面,无疑再一次证明了中国 AI Lab 团队的硬核实力。
期待更多中国 AI Lab 的杰作诞生!
真正的智能突破,往往藏在那些被视为“常识”的基石之下。
——好文推荐——
Transformer祖制,被Kimi捅破了!谷歌大V高赞:Kimi触碰了十年没人敢碰的禁区!性能炸裂,相当于免费得1.25倍算力,网友:简直天才洞察
硅谷大佬炮轰MCP:简直烂透了! 开发者们集体叛逃拆除MCP,转向CLI、Skills!250倍性能差距!最好的协议,是没有协议!
![图片[8]-杨植麟GTC最新演讲:AI研究的范式变了!我们要重构Transformer的“地基” !首次公开KimiK2.5技术路线!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260108225839379-1767884319-6571fdbb7284895db39ea0d44a7a83fa.gif)
<原文链接:https://mp.weixin.qq.com/s/19ZlXSm0DdcNzgekxHCVDQ














暂无评论内容