刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!

AI 圈这是真的要过「年」了!

智谱、MiniMax、DeepSeek。

同一天。全都出手了。

2 月 11 号,距离马年春节还有 6 天。

智谱正式发布 GLM-5。MiniMax 开放 M2.5 内测。DeepSeek 悄悄灰度上线百万 token 上下文。

去年春节,DeepSeek 推出 R1,直接改变了全球 AI 竞争格局。

今年所有人都在观望,谁会成为 2026 年的 DeepSeek-R1

答案可能不是一个,而是三个。


01|GLM-5 揭开面纱

过去一周,OpenRouter 上出现了一个神秘模型,代号 Pony Alpha

没署名谁家的。

完全免费,200K 上下文窗口,131K 最大输出。

上线第一天就处理了 400 亿 tokens,收到 20.6 万次请求。

有网友让它做了一款音乐播放器,带推荐、收藏、搜索,UI 比不少正经产品都好看。

甚至有海外开发者评价「slightly better than Opus 4.6」。

所有人都在猜它是谁。

有用户把系统提示词清空直接问「你是谁」,模型回答「I'm GLM」。分词器测试也指向 GLM 系列。

再看名字,Pony,小马,2026 年是马年。

今天,智谱官方确认。Pony Alpha 就是 GLM-5

图片[1]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

GLM-5 依旧采用 MoE 架构。

总参数从 GLM-4.5 的 3550 亿翻倍到 7440 亿,激活参数从 320 亿提高到 400 亿。

预训练数据也从 23T tokens 涨到了 28.5T tokens。

技术上有两点值得一提。

GLM-5 集成了 DeepSeek 的稀疏注意力技术 DSA,在保留长上下文能力的同时降低部署成本。

同时,为了解决大模型强化学习训练效率低的老问题,智谱为 GLM-5 专门开发了一套异步强化学习框架,叫 slime

来看基准测试。

SWE-bench Verified 拿到 77.8%,开源第一。

Terminal-Bench 2.0 得分 56.2%,逼近 Claude Opus 4.5 的 59.3%。

在 BrowseComp 这个测浏览器 Agent 能力的榜单上,GLM-5 得分 75.9%,直接超过了 Claude Opus 4.5 的 67.8% 和 Gemini 3 Pro 的 59.2%。

图片[2]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

接下来这个测试特别有意思。

Vending Bench 2 让模型模拟经营一台自动售货机,周期是一整年。

GLM-5 最终账户余额 4432 美元,接近 Claude Opus 4.5 的 4967 美元,远超 DeepSeek-V3.2 的 1034 美元。最高的是 Gemini 3 Pro,5478 美元。

考察的不是写代码,是长期规划和资源管理。

划重点,开源。MIT 协议,HuggingFace 和 ModelScope 都能下载权重。


怎么用?

最简单的方式,进 chat.z.ai,手动把模型切换到 GLM-5,免费。

图片[3]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

有 Chat 和 Agent 两种模式,Agent 模式能直接生成 Word、PDF、Excel 文件。

图片[4]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

开发者可以通过 bigmodel.cn(认准这个国内版链接!)调用 API,兼容 Claude Code 和 OpenClaw。

如果你是 GLM Coding Plan 的 Max 用户,现在就能用 GLM-5

其他套餐用户正在逐步开放。

富哥想本地跑也行。

从 HuggingFace 下载权重,支持 vLLM 和 SGLang。


02|MiniMax M2.5 同日内测

几乎同一时间,MiniMax 也开动了。

MiniMax 工程负责人 Skyler Miao 发了一条预告,配了一张 MiniMax 2.5 的预览图。

「Honestly I wanna release this beast ASAP — I'm dying to go back to my hometown for Spring Festival. But the more training compute we put in, the more it keeps rising. Painfully happy problem.」

恨不得赶紧发完回家过年,但模型越训练越强,根本停不下来。

幸福的烦恼。

图片[5]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

随后,MiniMax 网页端开放了 M2.5 内测。

已经有网友拿到了内测资格,准备连夜对比 GLM-5 和 M2.5

M2.5 的前身 M2.1 是去年 12 月 23 号发的,2300 亿总参数只激活 100 亿,主打多语言编程能力。

在 SWE-bench 多语言测试上超过了 Claude Sonnet 4.5,但成本更低。

MiniMax 也是 1 月 9 号在港交所上市的,和智谱只差一天。

两家公司 IPO 之前就各自发了 GLM-4.7 和 M2.1,相隔几小时。

这一次,又撞在了同一天。

怎么用?

M2.5 目前还在内测阶段。

可以去 MiniMax 官网(agent.minimax.io)看看自己有没有灰度到。

图片[6]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

03|DeepSeek 闷声升级

DeepSeek 的更新,依旧是静悄悄。

昨天下午,有网友发现 DeepSeek 变了。

我也去试了一下,直接问「你是谁」。

它的自我介绍里多了两行关键信息。上下文长度从之前的 128K 变成了 1M,知识截止到 2025 年 5 月。

图片[7]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

之前 DeepSeek-V3.2 的上下文是 128K,大概能处理一本普通小说。

1M 是它的近 8 倍,理论上可以一次性处理《三体》三部曲。

不过有个小遗憾,还是没有多模态能力。

当前的 1M 灰度测试,更像是 V4 正式登场前的一次热身。

怎么用?

打开 DeepSeek App 或网页端 chat.deepseek.com

问「你是谁」。

如果它的自我介绍里提到上下文是 1M、知识截止到 2025 年 5 月,恭喜你,灰度到了。

如果还是老版本,试试更新到最新版 App。


智谱、MiniMax、DeepSeek。

今年春节这份年终答卷,三家一起交了。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


图片[8]-刚刚,GLM-5 摊牌!MiniMax、DeepSeek 同日突袭,AI 圈过「年」了!-AI Express News

<原文链接:https://mp.weixin.qq.com/s/O1NM_uEO0jA-91i9I9--Mg

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容