Kimi 一次性放出两个王炸：不仅开了「天眼」，还学会了「分身」！-AI Express News

我们终于有自己的原生多模态模型了！

一个开源模型，在「人类最后一场考试」上击败了 GPT-5.2。

50.2% vs 45.5%。

这就是 Kimi K2.5，月之暗面刚刚发布的新模型。

原生多模态，能看图、能看视频、能思考、能当 Agent。

最近国产大模型海外大乱斗，Kimi 表现相当亮眼。

更有意思的，是另一个王炸级别的更新。

「Agent 集群」。

说人话，K2.5 学会了「分身术」。

面对复杂任务，它不再一个人死磕，而是现场召唤 100 个分身，1500 个步骤并行处理。

任务怎么拆解？角色怎么分配？

全由 K2.5 自己决定，不需要预设。

以前是一个 AI 在干活。现在是一整个 AI 团队给你干活。

01｜K2.5：开源模型的胜利

K2.5 有多猛？

直接和 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 硬扳手腕。

在 Agent 能力的三项核心测试里，K2.5 全部拿下第一。

「人类最后一场考试」HLE，K2.5 准确率 50.2%，超过了 GPT-5.2（45.5%）和 Claude Opus 4.5（43.2%）。

HLE 覆盖 100 多个专业领域，是目前公认最难的综合推理基准测试。

一个开源模型在这里领先所有闭源选手，还是头一次。

自主联网搜索能力 BrowseComp，K2.5 拿下 74.9%，GPT-5.2 是 65.8%，差距接近 10%。

深度搜索 DeepSearchQA，K2.5 是 77.1%，Claude 71.3%，Gemini 只有 63.2%。

编程测试 SWE-bench Verified，K2.5 76.8%；多语言编程 SWE-bench Multilingual，K2.5 73.0%。妥妥的 TOP 水准。

多模态更是重头戏。

OmniDocBench 1.5 测试文档理解，K2.5 以 88.8% 的黑马之姿拿下第一，比 Gemini 3 Pro 还要高。

长视频理解 LongVideoBench，K2.5 的 79.8% 同样领跑。

02｜「Agent 集群」：AI 学会了「团队作战」

不只是跑分。还有「Agent 集群」。

传统的 AI Agent 是怎么干活的？

一个模型，从头到尾自己干。任务越复杂，步骤越多，出错概率就越高，耗时也越长。

Kimi 换了个思路。

面对复杂任务，K2.5 会自动「分裂」成一个专业团队。

有的负责搜索，有的负责核实，有的负责分析。所有角色同时工作，最后由主 Agent 汇总验收。

举个例子。

你把 40 篇论文投喂给 K2.5。它先通读一遍确保理解所有内容，然后衍生出几个子 Agent 分别负责不同章节，最后汇总成一份几十页的专业综述 PDF。

这个能力的技术名称叫 PARL，「Parallel-Agent Reinforcement Learning」。

K2.5 在训练时就学会了如何拆解任务、分配角色、并行执行。

那么，效果怎么样？

相比单 Agent 执行，「Agent 集群」把达成目标所需的关键步骤减少了 3 到 4.5 倍。通过并行处理，实际运行时间最高可以缩短 4.5 倍。

以前一个人干 4 个小时的活，现在 1 个小时就能搞定。

03｜设计师级前端：上传视频写代码

K2.5 支持原生多模态，这意味着，你可以用它「视觉编程」了！

对于没有多模态能力的模型，你得先用文字把需求描述清楚。

但有些东西文字很难描述，比如交互动效、布局细节、设计风格。

K2.5 不需要这么麻烦了。

你可以直接上传一段录屏，它能自动拆解背后的交互逻辑，然后写代码从头到尾复现。

单条提示词，1 分钟就能出初版。

04｜Kimi Code：官方编程工具

月之暗面官方终于亲自下场了。

Kimi 有了自己的编程工具：「Kimi Code」。

开源，Apache 2.0 协议，Python 写的，很容易二次开发。

你可以直接在终端里用，也能集成到 VSCode、Cursor、JetBrains这些主流 IDE。

因为底层是 K2.5，所以天然支持图片和视频输入。

你可以直接上传设计稿截图、交互录屏，让它写代码。

支持技能迁移。

根据「Kimi Code Bench」的结果，K2.5 相较于上一代的提升不是一点半点。

05｜怎么用？

K2.5 模型现在已经上线 kimi.com 和手机 App。

在 Kimi 产品里，K2.5 提供四种模式：「快速模式」响应最快，「思考模式」解答复杂问题，「Agent 模式」做深度研究和文档生成，「Agent 集群模式」处理需要并行的复杂任务。

「Agent 集群」目前是 Beta 测试。

API 更是性价比拉满。

能力变强了，价格反而降了。不愧是你，Kimi！

开放平台从今天起还有 7 天充值赠送活动。

K2.5 模型权重和代码已经在 Hugging Face 上开源，遵循修改版 MIT 协议。

从 K2 到 K2 Thinking 再到 K2.5，Kimi 的节奏很快。

半年时间，三个大版本。

7 月补了 Agent 能力，11 月补了思考能力，现在又补上了视觉和并行。

而且这才刚开年，不敢想象 AI 今年还会进化到什么恐怖的程度。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。
关注「AI信息Gap」，让 AI 成为你的外挂。

<原文链接：https://mp.weixin.qq.com/s/85BSlZVeCAzdqooSZEMe_g

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

Kimi 一次性放出两个王炸：不仅开了「天眼」，还学会了「分身」！

01｜K2.5：开源模型的胜利

02｜「Agent 集群」：AI 学会了「团队作战」

03｜设计师级前端：上传视频写代码

04｜Kimi Code：官方编程工具

05｜怎么用？

请登录后发表评论