我们终于有自己的原生多模态模型了!
一个开源模型,在「人类最后一场考试」上击败了 GPT-5.2。
50.2% vs 45.5%。
这就是 Kimi K2.5,月之暗面刚刚发布的新模型。
原生多模态,能看图、能看视频、能思考、能当 Agent。
最近国产大模型海外大乱斗,Kimi 表现相当亮眼。
![图片[1]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222950450-1769610590-66656dbfeed91b82f2ac3da7b3c5c2ad.png)
更有意思的,是另一个王炸级别的更新。
「Agent 集群」。
说人话,K2.5 学会了「分身术」。
面对复杂任务,它不再一个人死磕,而是现场召唤 100 个分身,1500 个步骤并行处理。
任务怎么拆解?角色怎么分配?
全由 K2.5 自己决定,不需要预设。
![图片[2]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222951431-1769610591-1af37238c003a9b2b69dc5ee01800cf5.png)
以前是一个 AI 在干活。现在是一整个 AI 团队给你干活。
01|K2.5:开源模型的胜利
K2.5 有多猛?
直接和 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 硬扳手腕。
在 Agent 能力的三项核心测试里,K2.5 全部拿下第一。
「人类最后一场考试」HLE,K2.5 准确率 50.2%,超过了 GPT-5.2(45.5%)和 Claude Opus 4.5(43.2%)。
HLE 覆盖 100 多个专业领域,是目前公认最难的综合推理基准测试。
一个开源模型在这里领先所有闭源选手,还是头一次。
自主联网搜索能力 BrowseComp,K2.5 拿下 74.9%,GPT-5.2 是 65.8%,差距接近 10%。
深度搜索 DeepSearchQA,K2.5 是 77.1%,Claude 71.3%,Gemini 只有 63.2%。
![图片[3]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222952434-1769610592-dda9a6a27127600cb74a352b75f38724.png)
编程测试 SWE-bench Verified,K2.5 76.8%;多语言编程 SWE-bench Multilingual,K2.5 73.0%。妥妥的 TOP 水准。
多模态更是重头戏。
OmniDocBench 1.5 测试文档理解,K2.5 以 88.8% 的黑马之姿拿下第一,比 Gemini 3 Pro 还要高。
长视频理解 LongVideoBench,K2.5 的 79.8% 同样领跑。
02|「Agent 集群」:AI 学会了「团队作战」
不只是跑分。还有「Agent 集群」。
传统的 AI Agent 是怎么干活的?
一个模型,从头到尾自己干。任务越复杂,步骤越多,出错概率就越高,耗时也越长。
Kimi 换了个思路。
面对复杂任务,K2.5 会自动「分裂」成一个专业团队。
有的负责搜索,有的负责核实,有的负责分析。所有角色同时工作,最后由主 Agent 汇总验收。
举个例子。
你把 40 篇论文投喂给 K2.5。它先通读一遍确保理解所有内容,然后衍生出几个子 Agent 分别负责不同章节,最后汇总成一份几十页的专业综述 PDF。
![图片[4]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222953832-1769610593-633b1dacaa96399605a4c8863b524455-scaled.jpeg)
这个能力的技术名称叫 PARL,「Parallel-Agent Reinforcement Learning」。
K2.5 在训练时就学会了如何拆解任务、分配角色、并行执行。
那么,效果怎么样?
相比单 Agent 执行,「Agent 集群」把达成目标所需的关键步骤减少了 3 到 4.5 倍。通过并行处理,实际运行时间最高可以缩短 4.5 倍。
以前一个人干 4 个小时的活,现在 1 个小时就能搞定。
03|设计师级前端:上传视频写代码
K2.5 支持原生多模态,这意味着,你可以用它「视觉编程」了!
对于没有多模态能力的模型,你得先用文字把需求描述清楚。
但有些东西文字很难描述,比如交互动效、布局细节、设计风格。
K2.5 不需要这么麻烦了。
你可以直接上传一段录屏,它能自动拆解背后的交互逻辑,然后写代码从头到尾复现。
单条提示词,1 分钟就能出初版。
![图片[5]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222955210-1769610595-4e4647edf7f66c78c562ae1a0ae1c29a-scaled.jpeg)
04|Kimi Code:官方编程工具
月之暗面官方终于亲自下场了。
Kimi 有了自己的编程工具:「Kimi Code」。
开源,Apache 2.0 协议,Python 写的,很容易二次开发。
你可以直接在终端里用,也能集成到 VSCode、Cursor、JetBrains这些主流 IDE。
因为底层是 K2.5,所以天然支持图片和视频输入。
你可以直接上传设计稿截图、交互录屏,让它写代码。
支持技能迁移。
根据「Kimi Code Bench」的结果,K2.5 相较于上一代的提升不是一点半点。
![图片[6]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222956278-1769610596-b4e10537b3bd372754e2473616469530.png)
05|怎么用?
K2.5 模型现在已经上线 kimi.com 和手机 App。
在 Kimi 产品里,K2.5 提供四种模式:「快速模式」响应最快,「思考模式」解答复杂问题,「Agent 模式」做深度研究和文档生成,「Agent 集群模式」处理需要并行的复杂任务。
「Agent 集群」目前是 Beta 测试。
![图片[7]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222957225-1769610597-fb7a222f7d407abe68584fcd3b72653e.png)
API 更是性价比拉满。
能力变强了,价格反而降了。不愧是你,Kimi!
开放平台从今天起还有 7 天充值赠送活动。
![图片[8]-Kimi 一次性放出两个王炸:不仅开了「天眼」,还学会了「分身」!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260128222957534-1769610597-88200c93e32092df17060c3f27706b84.png)
K2.5 模型权重和代码已经在 Hugging Face 上开源,遵循修改版 MIT 协议。
从 K2 到 K2 Thinking 再到 K2.5,Kimi 的节奏很快。
半年时间,三个大版本。
7 月补了 Agent 能力,11 月补了思考能力,现在又补上了视觉和并行。
而且这才刚开年,不敢想象 AI 今年还会进化到什么恐怖的程度。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。
<原文链接:https://mp.weixin.qq.com/s/85BSlZVeCAzdqooSZEMe_g


















暂无评论内容