太疯狂了！“龙虾”红透A股，OpenClaw连更两日，32款养虾大模型集结，创始人在线打假-AI Express News

▲头图由AI生成

安全性与上下文成OpenClaw更新重点。

作者 | 陈骏达

编辑 | 心缘

智东西3月9日报道，就在刚刚，OpenClaw发布了2025.3.8版本的更新，引入CLI备份能力、macOS远程网关令牌配置、ACP溯源功能，并修复了飞书插件安装后重复提示下载的问题，进一步优化了OpenClaw框架的安全性、提升了与外部服务的集成深度。

▲OpenClaw2026.3.8更新（图源：X平台）

这是两天内OpenClaw发布的第二次更新，就在昨天，OpenClaw一口气推出300多条修复、27项变更和1项重大变更，OpenClaw官方更是发文称：“我们不搞那种琐碎的小版本发布。”言下之意就是：要搞就搞大的。

▲OpenClaw2026.3.7更新（图源：X平台）

OpenClaw创始人Peter Steinberger还在3月7日顺势转发了专用于评估大模型在OpenClaw智能体任务中表现的基准测试PinchBench，从32款模型评出最新养龙虾大模型排行榜。

其中排名前三的，有两个都是国产模型，分别是MiniMax M2.1和Kimi K2.5。

▲Peter Steinberger转发PinchBench（图源：X平台）

英伟达创始人兼CEO黄仁勋在上周四的摩根士丹利TMT大会发出感叹：“Linux花了30年才达到的成就，OpenClaw只用了3周。”

虽然黄仁勋的表述可能有些夸张，不过事实是，自今年1月以来，OpenClaw的热度迅速攀升。截至今天下午18点，其GitHub星标数量已经达到27万个，超过了知名开源项目Linux、React，排名全球第一。

一系列围绕OpenClaw的活动、讨论乃至“搞钱机会”多点开花。上周，在深圳，腾讯大厦门口免费安装OpenClaw的活动排起长队，有腾讯员工评价这一盛况堪比春节发红包，甚至连马化腾都在朋友圈感叹：“没有想到会这么火”。

▲马化腾感叹OpenClaw热度（图源：雷锋网）

在美国纽约，一场以OpenClaw为主题的ClawCon大会吸引了超1300人，从大学生、游戏开发者到硅谷程序员都纷纷报名，远超会场本身容量，600多人最后被拒之门外。一位参会者称：“没有人关心你本来是做什么的，大家只关心你在用OpenClaw Agent做什么？”

▲ClawCon大会盛况（图源：The Verge）

脑子活络的网友已经靠OpenClaw赚到第一桶金了，以OpenClaw上门安装为关键词搜索，能找到不少帖子，一次上门安装服务的价格在500元左右。有从业者甚至宣称，短短数日内凭借这门手艺赚了26万元，不过这一数据的出处已经无从考证。

▲MiniMax股价逼近1000港元（图源：腾讯自选股）

爆火之中掺杂着混乱。

今年2月，工业和信息化部网络安全威胁和漏洞信息共享平台监测发现OpenClaw开源AI Agent部分实例在默认或不当配置情况下存在较高安全风险，极易引发网络攻击、信息泄露等安全问题。相关部门建议，在部署和应用OpenClaw时，应充分核查公网暴露情况、权限配置及凭证管理情况，关闭不必要的公网访问。

OpenClaw创始人Peter Steinberger昨天在X上亲自下场手撕国内社交平台上的“李鬼”账号，明确强调：OpenClaw目前在微博、B站没有任何官方号。

▲Peter Steinberger在打假（图源：X平台）

OpenClaw甚至带动了A股和港股市场中“龙虾概念股”的疯涨，A股优刻得、博睿数据等涨停，港股MiniMax收盘涨23.77%，总市值突破3100亿港元，智谱、云知声等相关股跟涨。

01.

OpenClaw框架大更新

安全与上下文成重点

OpenClaw项目在3月8日进行的一次重磅更新，发布了300多条修复、27项变更和1项重大变更。贡献者列表显示，一共有194人参与，这对于一个开源项目来说已经很多了。

OpenClaw在X平台的官方账号，给这次更新划了重点：支持OpenAI、谷歌的新模型、优化各大通讯平台的兼容性问题、新增SecretRef安全验证以及新增可插拔上下文引擎等等，直指OpenClaw在日常使用中出现的多种痛点，许多更新项目就是由用户自己开发的，显示出这一社区的活跃度。

这次更新解决了OpenClaw原版框架中无法自主选择记忆管理插件的痛点，还优化了客户端与Agent之间的通信协议的稳定性，并提供持久性的Discord频道与Telegram的绑定存储。

中国开发者也贡献了不少更新。OpenClaw在国内常常与飞书一起搭配使用，但在与飞书生态的结合上还做得不是很好。国内开发者@liuxiaopai-ai、@rexl2018、@kcinzgg和@aerelune等就提交多个更新，优化了OpenClaw在飞书内部进行命令识别、消息交互、身份识别优化时的效果。

对于饱受诟病的安全性问题，OpenClaw项目也进行了查缺补漏。最重大的变更是，如今网关认证不再允许模棱两可的配置——当同时设置了认证令牌和密码时，系统会强制要求明确指定认证模式，而不是让系统猜测或允许两者共存，从根源上杜绝了因配置歧义导致的安全漏洞或服务启动失败。

OpenClaw的网关与模型验证现已支持SecretRef，这允许用户以引用方式管理认证令牌，而不再需要将明文密钥直接写在配置文件中。此外，系统为了防止信息意外外泄，移除了/status与/models等用户界面中的权限密钥片段，并增加了在CLI输入密码时的硬化处理，避免密码通过进程列表泄露。

不过，除了底层框架的优化之外，用OpenClaw搭建Agent也需要一个智慧的大脑，PinchBench的推出，正好为广大用户提供了一个标准。

02.

Kilo Code推出“龙虾基准测试”

中国模型性价比突出

PinchBench目前包含23项不同类别的任务，比如股票价格研究、文档摘要、文件结构创建、多步复杂工作流等，为的是全面评估模型在OpenClaw框架下完成编程、办公、创作等多类型任务的能力。

目前，已经有超30款模型参与了这一基准测试。值得一提的是，中国模型展现出明显的性能与价格优势。

在正确率榜单的前10名中，来自谷歌的Gemini 3 Flash Preview拿下第一，而MiniMax M2.1和Kimi K2.5分列第二、第三，接下来是来自谷歌、OpenAI和Anthropic的多款模型，阿里的Qwen3 Coder Next位列第十。

在性价比方面，中国模型的优势更为明显。比如，MiniMax M2.1与Gemini 3 Flash Preview的正确率差距为1.5%，而MiniMax M2.1的成本只有Gemini 3 Flash Preview的大约1/10；Kimi K2.5的表现超过了Claude Opus 4.6，而价格仅为后者的零头。

分数之外，这些模型在具体场景的表现究竟如何？

拿下准确率榜第一的Gemini 3 Flash Preview参加了11项任务的测试，满分11分，得分为10.5。在日历填写、编程和文件操作等任务中，Gemini 3 Flash Preview拿到了满分成绩，不过在理解、写作等任务中出现瑕疵，而在上下文记忆检索任务中其表现最差，得分仅为80%。

位列榜二的MiniMax M2.1同样拿到10.5分的成绩，在编程任务上，其得分略逊于Gemini 3 Flash Preview，在上下文记忆检索任务其得分与Gemini 3 Flash Preview一致，都为80%。

在事实验证、写作、研究等任务上，MiniMax M2.1拿到了满分。此外，MiniMax M2.1在复杂多步骤工作流上的表现要比Gemini 3 Flash Preview好上3%，这类工作流在Agent任务中是极为常见的。

位列第三的Kimi K2.5拿下写作、编程、研究等7项满分，不过同样在上下文记忆检索任务中踩坑。看来，对目前的大模型而言，长上下文中的信息捕捉能力仍是有待提升的短板。

榜单上，还有几款新发布的模型意外地表现不佳。比如，OpenAI最新发布的GPT-5.4任务正确率仅有76%，在总榜上排名第20，甚至不如2024年发布的GPT-4o。

其在上下文记忆检索任务、复杂工作流、信息理解上的正确率仅有70%左右，在文档总结、记忆两项测试中得分为零。

Qwen3 Max Thinking的任务正确率仅有46%，在部分涉及文件操作、脚本撰写的任务上未能成功执行，拿了零分。

从PinchBench的初步测评结果来看，我们已经能总结出一些共性特点。

对于Agent这一任务场景来说，并不是模型越大就越好，也不是越新越好。许多进入正确率排名前十的模型都不是最大、最强的版本，比如Gemini 3 Flash Preview的成绩要优于Gemini 3 Pro Preview，Claude Haiku 4.5的得分要优于Claude Opus 4.6。

在Agent任务中，尤其是多步骤工作流、文件操作、编程等，模型通常需要多次调用工具或与环境交互。在这些任务中，轻量级模型更快的推理速度与响应延迟，以及更短的思考长度，可能提升了整个工作流的稳定性和成功率。

03.

结语：OpenClaw热度不减

开源生态持续推高热度

以OpenClaw为代表的Agent框架，正深刻影响着大模型行业的方方面面。比如，衡量模型在OpenClaw中表现的基准测试“PinchBench”，未来有可能成为指导模型开发商优化模型能力的重要参考，以便让模型更好地适应Agent工作流。

同时，OpenClaw也在不断补齐自身的安全与兼容性短板。OpenClaw的开源特性让全球开发者都可以参与到这一框架的优化过程中。随着更多技术力量的汇入，这股“养龙虾”的热潮或许仍将持续发酵。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

2026中国生成式AI大会预告

<原文链接：https://mp.weixin.qq.com/s/K0JW932LISkFJLcT2tvsog

文章版权归作者所有，未经允许请勿转载。

THE END