刚刚，GLM-5 摊牌！MiniMax、DeepSeek 同日突袭，AI 圈过「年」了！-AI Express News

AI 圈这是真的要过「年」了！

智谱、MiniMax、DeepSeek。

同一天。全都出手了。

2 月 11 号，距离马年春节还有 6 天。

智谱正式发布 GLM-5。MiniMax 开放 M2.5 内测。DeepSeek 悄悄灰度上线百万 token 上下文。

去年春节，DeepSeek 推出 R1，直接改变了全球 AI 竞争格局。

今年所有人都在观望，谁会成为 2026 年的 DeepSeek-R1。

答案可能不是一个，而是三个。

01｜GLM-5 揭开面纱

过去一周，OpenRouter 上出现了一个神秘模型，代号 Pony Alpha。

没署名谁家的。

完全免费，200K 上下文窗口，131K 最大输出。

上线第一天就处理了 400 亿 tokens，收到 20.6 万次请求。

有网友让它做了一款音乐播放器，带推荐、收藏、搜索，UI 比不少正经产品都好看。

甚至有海外开发者评价「slightly better than Opus 4.6」。

所有人都在猜它是谁。

有用户把系统提示词清空直接问「你是谁」，模型回答「I'm GLM」。分词器测试也指向 GLM 系列。

再看名字，Pony，小马，2026 年是马年。

今天，智谱官方确认。Pony Alpha 就是 GLM-5。

GLM-5 依旧采用 MoE 架构。

总参数从 GLM-4.5 的 3550 亿翻倍到 7440 亿，激活参数从 320 亿提高到 400 亿。

预训练数据也从 23T tokens 涨到了 28.5T tokens。

技术上有两点值得一提。

GLM-5 集成了 DeepSeek 的稀疏注意力技术 DSA，在保留长上下文能力的同时降低部署成本。

同时，为了解决大模型强化学习训练效率低的老问题，智谱为 GLM-5 专门开发了一套异步强化学习框架，叫 slime。

来看基准测试。

SWE-bench Verified 拿到 77.8%，开源第一。

Terminal-Bench 2.0 得分 56.2%，逼近 Claude Opus 4.5 的 59.3%。

在 BrowseComp 这个测浏览器 Agent 能力的榜单上，GLM-5 得分 75.9%，直接超过了 Claude Opus 4.5 的 67.8% 和 Gemini 3 Pro 的 59.2%。

接下来这个测试特别有意思。

Vending Bench 2 让模型模拟经营一台自动售货机，周期是一整年。

GLM-5 最终账户余额 4432 美元，接近 Claude Opus 4.5 的 4967 美元，远超 DeepSeek-V3.2 的 1034 美元。最高的是 Gemini 3 Pro，5478 美元。

考察的不是写代码，是长期规划和资源管理。

划重点，开源。MIT 协议，HuggingFace 和 ModelScope 都能下载权重。

怎么用？

最简单的方式，进 chat.z.ai，手动把模型切换到 GLM-5，免费。

有 Chat 和 Agent 两种模式，Agent 模式能直接生成 Word、PDF、Excel 文件。

开发者可以通过 bigmodel.cn（认准这个国内版链接！）调用 API，兼容 Claude Code 和 OpenClaw。

如果你是 GLM Coding Plan 的 Max 用户，现在就能用 GLM-5。

其他套餐用户正在逐步开放。

富哥想本地跑也行。

从 HuggingFace 下载权重，支持 vLLM 和 SGLang。

02｜MiniMax M2.5 同日内测

几乎同一时间，MiniMax 也开动了。

MiniMax 工程负责人 Skyler Miao 发了一条预告，配了一张 MiniMax 2.5 的预览图。

「Honestly I wanna release this beast ASAP — I'm dying to go back to my hometown for Spring Festival. But the more training compute we put in, the more it keeps rising. Painfully happy problem.」

恨不得赶紧发完回家过年，但模型越训练越强，根本停不下来。

幸福的烦恼。

随后，MiniMax 网页端开放了 M2.5 内测。

已经有网友拿到了内测资格，准备连夜对比 GLM-5 和 M2.5。

M2.5 的前身 M2.1 是去年 12 月 23 号发的，2300 亿总参数只激活 100 亿，主打多语言编程能力。

在 SWE-bench 多语言测试上超过了 Claude Sonnet 4.5，但成本更低。

MiniMax 也是 1 月 9 号在港交所上市的，和智谱只差一天。

两家公司 IPO 之前就各自发了 GLM-4.7 和 M2.1，相隔几小时。

这一次，又撞在了同一天。

怎么用？

M2.5 目前还在内测阶段。

可以去 MiniMax 官网（agent.minimax.io）看看自己有没有灰度到。

03｜DeepSeek 闷声升级

DeepSeek 的更新，依旧是静悄悄。

昨天下午，有网友发现 DeepSeek 变了。

我也去试了一下，直接问「你是谁」。

它的自我介绍里多了两行关键信息。上下文长度从之前的 128K 变成了 1M，知识截止到 2025 年 5 月。

之前 DeepSeek-V3.2 的上下文是 128K，大概能处理一本普通小说。

1M 是它的近 8 倍，理论上可以一次性处理《三体》三部曲。

不过有个小遗憾，还是没有多模态能力。

当前的 1M 灰度测试，更像是 V4 正式登场前的一次热身。

怎么用？

打开 DeepSeek App 或网页端 chat.deepseek.com。

问「你是谁」。

如果它的自我介绍里提到上下文是 1M、知识截止到 2025 年 5 月，恭喜你，灰度到了。

如果还是老版本，试试更新到最新版 App。

智谱、MiniMax、DeepSeek。

今年春节这份年终答卷，三家一起交了。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。
关注「AI信息Gap」，让 AI 成为你的外挂。

<原文链接：https://mp.weixin.qq.com/s/O1NM_uEO0jA-91i9I9--Mg

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

刚刚，GLM-5 摊牌！MiniMax、DeepSeek 同日突袭，AI 圈过「年」了！

01｜GLM-5 揭开面纱

怎么用？

02｜MiniMax M2.5 同日内测

怎么用？

03｜DeepSeek 闷声升级

怎么用？

请登录后发表评论