同款模型,两套Harness,得分差了将近一倍:Claude Code泄露源码的真正价值在哪里 让企业真正关注Agentic AI,是Claude Code源码泄露的最大价值 从Claude Code源码泄露,看Harness工程与企业级Agentic AI架构![图片[1]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010118518-1775235678-d8135380d3d98737e04450c6532dedc3.png)
先说一个数据。
ML6.eu研究团队在CORE基准测试(测量AI Agent重现科学结论的能力)里做了一个对比实验:同样使用Claude Opus 4.5模型,在Claude Code的harness下,Agent得分78%;切换到Smolagents框架,得分掉到42%。同一个大脑,不同的"外壳",性能差了将近一倍。
这个数字解释了2026年3月31日那59.8MB源映射文件真正引爆社区的原因。
那天Anthropic发布@anthropic-ai/claude-code@2.1.88时,一个.npmignore的配置遗漏,让完整的512,000行TypeScript源码随npm包一起出了门。
2880万次浏览、84,000个GitHub star、24小时内诞生的GitHub史上增长最快的仓库claw-code,这些数字背后的真正驱动力不是"Anthropic出丑",而是开发者第一次看到了"那个让模型差距接近一倍的外壳"到底长什么样。
本文就跟大家深度拆解这512,000行代码:它揭示了什么样的Agent架构,这套架构与企业级Agentic AI的真实需求之间差距在哪里,以及企业该怎么正确地借鉴它。
泄露了什么,损失了什么
这次泄露的是Claude Code CLI(命令行工具)的完整客户端源码,包括512,000行TypeScript、1,906个文件。Claude模型的权重、训练数据、后端推理基础设施,一行都没有出去。
![图片[2]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010122486-1775235682-a62ec986e9ee7bae601cbd7be7c92c67.jpeg)
损失的是什么?是Anthropic花了多少时间、踩了多少坑,才工程化出来的那套把模型变成生产可用Agent的运行时框架。
业内把这类系统叫做Agentic Harness(代理外壳),或者更直白一些:让聪明但散漫的马能持续干活的那套驾驭装备。工具调用、任务编排、记忆管理、错误重试、权限控制,全都是harness的组成部分。
Anthropic工程团队成员Prithvi Rajasekaran的原话是:Harness设计是前沿agentic编程性能的关键。
这句话在泄露事件后有了最直观的注脚:同款Claude模型,harness好不好,能差出将近一倍的基准测试性能。
一行缺失配置的连锁反应
技术根因是Bun运行时的一个默认行为问题。Anthropic选择Bun替代Node.js,追求更快的构建速度,但Bun在生产模式下会默认生成源映射文件(source map)。Claude Code的.npmignore没有将59.8MB的cli.js.map排除在外。这个文件不只是代码位置信息,它的sourcesContent字段内嵌了所有原始TypeScript源码——512,000行,一字不漏。
![图片[3]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010124461-1775235684-d7edbc09e1ac18715ed0b94abfa8657b.jpeg)
Bun项目的Bug #28001(生产模式源映射未按预期禁用)在3月11日就被提交了,泄露发生时这个issue仍处于开放状态。
传播速度超出预期。泄露后约6小时的黄金窗口期内,源码已被复制到全球数百个节点:GitHub上的聚合镜像仓库、IPFS和Arweave去中心化存储网络、Pastebin分段上传。Anthropic的DMCA通知最终批量下架了8,100个GitHub仓库,其中包括公司自己公开代码的合法分支和大量无关第三方项目,不得不在48小时内撤回大部分通知。
法律层面有个有趣的悖论。Anthropic公开承认Claude Code约90%的代码由AI生成。2025年3月,美国DC巡回法院在Thaler v. Perlmutter案中确立了先例:仅由AI生成、缺乏人类创意贡献的作品不受版权保护。
这意味着如果Anthropic声称AI生成的代码受版权保护,会与他们在训练数据案件中的自我辩护立场(AI输出构成合理使用)产生正面冲突,相当于用右手打左手。这也是Anthropic在起诉干净室重写项目上迟迟没有实质动作的原因之一。
还有一个被广泛讨论的时间巧合:2026年3月31日00:21到03:29 UTC之间,npm包axios出现了独立的供应链攻击,一个含远程访问木马(RAT)的恶意版本被发布。
与Claude Code泄露完全独立的两起事件恰好同天发生,让整个npm生态圈当天的安全警报级别异常高。在当天安装过Claude Code的用户,理论上存在感染无关恶意软件的窗口期风险。
生产级AI Agent架构全解剖
社区对泄露代码的分析集中在八个核心模块。王吉伟频道按重要性排列,逐一拆解。
1. Agent核心循环:不是聊天,是"类操作系统"调度器
传统聊天机器人逻辑很简单:接收输入、生成输出、等下一个输入。Claude Code的Agent Loop完全不是这个思路。
核心文件AgentLoop.ts、Coordinator.ts、Orchestrator.ts共同实现了一个完整的五阶段状态机:思考(Thinking)、工具调用(Tool Execution)、审查(Review)、重试(Retry with Degradation)、输出(Output)。每个阶段都有明确的状态转移条件、失败回退路径和资源预算控制。
最值得关注的是Coordinator Mode(协调者模式):主Agent可以通过AgentTool生成子代理实例,实现"研究-合成-实现"流水线。主Agent负责任务分解和质量把关,子Agent各司其职完成专项工作。内置审查机制和失败重试(最多3到5次),重试耗尽后自动降级到更轻量的模型。
这套设计在概念上直接对标LangGraph和CrewAI,但Claude Code将编排逻辑完整内化到了单一产品,开发者无需额外学习和拼装框架。
2. Tool系统:40个权限门控的"syscall"式能力层
如果说Agent Loop是CPU调度器,Tool系统就是操作系统的系统调用接口。
tools/目录下40个独立工具模块,ToolBase.ts基础定义约29,000行,每个工具都有完整的manifest、输入输出schema、风险等级(LOW/MEDIUM/HIGH)和权限门控逻辑。工具分几大类:
文件操作:FileReadTool、FileEditTool、FileWriteTool、NotebookEditTool,支持增量编辑和冲突检测。
命令执行:BashTool、PowerShellTool,内置2,500行以上的安全沙箱代码,会对命令做AST级别的危险操作识别(如rm -rf /)。
网络交互:WebFetchTool、WebSearchTool、WebBrowserTool(基于Playwright的完整浏览器控制)。
元能力:SkillTool(从.claude/skills/动态加载自定义技能)、AgentTool(生成子Agent实例)、CronTool(定时任务调度)。
这套设计借鉴了操作系统的能力安全模型(capability-based security),让Agent"能做事"但"不能乱做"。BashTool执行修改文件系统的命令前强制要求用户确认,WebBrowserTool只能访问白名单域名。
![图片[4]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010126683-1775235686-7086ac7410c185147ce6af678e7ce5b0-scaled.png)
3. Query Engine:46,000行的LLM调用"中间件"
QueryEngine.ts单文件约46,000行,是Claude Code与Claude模型交互的唯一入口。功能包括:API调用管理(请求合并、超时熔断、速率限制)、流式输出处理、Token优化(提示词缓存、上下文压缩、重复内容去重)、成本控制(Token计数、预算告警、自动模型降级:Opus失败后切Sonnet)、并行Tool调用调度和多层容错机制。
代码注释里有一条细节:有人记录了"autocompact失败每天浪费250,000次API调用"。这条内部note说明Anthropic对成本优化有严格的量化监控体系,每一个工程优化背后都有真实的财务数字驱动。
Query Engine的存在证明了一个核心观点:同样调用Claude API,包装方式决定最终体验。直接调API的Agent容易超token、容易幻觉、容易浪费成本。生产级Agent必须有这样一个"智能中间件"来驯服模型。
4. 记忆与上下文架构(3 层内存系统)
最被称赞的“Self-Healing Memory”设计,解决了传统 Agent 上下文爆炸和幻觉问题。 核心文件:memory/ 目录、MEMORY.md 处理逻辑、DreamEngine.ts 等。
3层结构: MEMORY.md:轻量索引(每行 ~150 字符指针),永久加载在上下文,不存完整数据; Topic Files:按主题拆分的详细知识文件,按需加载;Session Transcripts:完整对话记录,仅通过 grep/搜索引用,不整段塞进上下文。这是解决长上下文退化的实战方案,远超简单 RAG。
5. Slash Commands 与用户交互,用户可见的交互层
数量:约 50 个 slash commands(/xxx 指令),部分是 Skills 的快捷方式。
核心实现:自定义 React + Ink 终端渲染器(game-engine 级技术)、主入口 main.tsx(约 785KB 打包后)。
亮点:支持并行 Tool 调用、实时进度条、语音模式入口、交互式确认流程。
实际意义:让 CLI 体验像 IDE 一样丝滑,还包含 Tamagotchi 风格的 Buddy 宠物(18 种物种 + 扭蛋机制,会在输入框旁“反应”)。
6. 44 个隐藏 Feature Flags(未发布功能),源码里最“炸裂”的部分,44 个编译时 Feature Flags(部分分析提到 108 个模块被门控)
核心文件:feature-flags.ts / 各模块的 if (FLAGS.KAIROS) 判断。
主要未发布特性(已确认): KAIROS:24/7 后台常驻 Daemon,每 15 秒 tick 检查是否主动介入,可推送通知、监控 PR、夜间 DREAM 整合。
ULTRAPLAN:把深度规划外包给远程 Opus 实例(最长 30 分钟)。
COORDINATOR_MODE:结构化多 Agent 研究-合成-实现流程。
DREAM:自动记忆整合。
其他:语音模式、Playwright 全浏览器控制、Cron 调度、自我恢复、员工专属 UNDERCOVER 模式等 20+ 个。
亮点:Bun 编译时死代码消除,只在内部构建启用。
实际意义:相当于 Anthropic 的未来产品路线图全部公开。
7. 系统提示词、安全与对齐完整的“宪法级”提示词和安全机制
核心文件:系统提示模板(safety behavior、输出格式约束)、反蒸馏(anti-distillation)逻辑。
内容:详细的工具使用规范、风险控制、输出 JSON 格式强制、欺骗/越狱防御等。
亮点:强调“Agent 必须验证记忆”“拒绝有害请求”“透明报告 Tool 调用风险”。
实际意义:泄露后大家第一次看到 Anthropic 如何在提示词层面实现 Constitutional AI 的生产落地。
8. 其他辅助模块剩余的“胶水代码”和基础设施
包含:日志/调试系统、性能监控、插件加载框架(SkillTool 动态发现 .claude/skills/)、构建配置(Bun)、IDE 扩展通信层、内部开发者注释(包括吐槽 memoization 复杂度的 memo)。
亮点:模块化极高,几乎所有功能都可独立扩展。
实际意义:让整个代码库成为“可直接学习的 AI Agent 蓝图”。
源码泄露后,外界也是第一次完整看到了Anthropic如何在提示词层面实现Constitutional AI的生产落地:详细的工具使用规范、越狱防御、反蒸馏(anti-distillation)逻辑、JSON格式强制输出。
贯穿全系统的设计原则是:Agent必须把记忆当作hint(提示),每次使用前必须验证真实代码和文件"这套系统提示词与安全机制,值得每一个人产品经理去深挖。
三层记忆系统:破解"上下文熵"的工程答案
任何用AI Agent处理长期任务的人都遇到过同一个症状:运行一段时间后Agent开始说胡话,忘了前面做过什么,或者把两件不相关的事情混在一起。这就是"上下文熵":信息在长会话中的自然退化。
![图片[5]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010130244-1775235690-4718b708408b7f80e414408d0e121f52.png)
Claude Code的解法是一套三层记忆架构,设计思路相当精妙。
第一层:MEMORY.md(永久索引)。轻量级指针文件,每行约150字符,只记录"去哪里找数据",不存完整内容。永久加载在Agent的上下文窗口中,作为"记忆地图"。好比出差前的手写便条:不是把工作手册整本带上,只记"项目规范在左抽屉第三层"。
第二层:Topic Files(主题知识文件)。按项目结构、功能模块、讨论主题拆分的详细知识文件。被引用时按需加载,平时不占用常驻上下文空间。
第三层:Session Transcripts(会话记录)。完整对话历史以transcript形式保存,但不整体塞进上下文。Agent只能通过grep或专门的搜索工具查询特定内容。
系统设置了多重硬性约束:MEMORY.md内容上限200行,文件读取超过2,000行触发幻觉警告,约167,000 token后强制触发自动压缩。
最值得关注的设计细节是"严格写入纪律"(Strict Write Discipline):AI只有在成功完成文件写入操作之后,才被允许更新记忆索引。这等于给记忆系统加了事务性保证,杜绝了"以为写了但实际没写"的幽灵记忆问题。
DREAM模式则是这套系统的"夜间维护进程":上下文接近167k token阈值或用户空闲超过2小时后,自动触发后台记忆蒸馏:去重、矛盾消除、把模糊见解转化为确定性事实。经过几次DREAM后,Agent对项目历史的理解深度会显著提升。
这套设计的局限性也需要诚实面对。技术分析者Chen Zhang指出:记忆检索依赖grep,缺乏语义理解能力。你记得"部署时有端口冲突",但记忆文件写的是"修改了docker-compose端口映射",grep就会漏掉这个关联。企业在复用这套架构时,需要考虑引入向量检索来补足语义理解的缺口。
传统RAG(检索增强生成)的问题在于:检索到的内容越多,上下文越混乱,模型越容易幻觉。Claude Code的三层记忆系统用完全不同的思路解决这个问题,不是"存储一切",而是"用指针管理一切",按需加载,严格写入,夜间蒸馏。社区开发者将这称为自愈记忆系统,这个叫法相当准确。
KAIROS:Feature Flag里藏着的AI Agent终局形态
44个编译时Feature Flag里,KAIROS在源码中出现超过150次,遍布约61个文件。它是古希腊语"恰当时机"的意思,在Claude Code里代表着一种全新的Agent工作模式:把Claude Code从"响应式工具"升级为"持久化后台守护进程"。是不是很熟悉?没错,这已经是OpenClaw作为AI助手24/7小时值守那一套。
Tick机制是KAIROS的核心心跳。启用后,Claude Code像systemd服务一样常驻后台,每15秒收到一次<tick>心跳提示,自主判断是否需要主动介入:
while daemon_active:
sleep(15秒或cron调度)
context = gather_context(github_webhooks, 文件变化, 日志, 内存)
prompt = "现在有什么值得主动做的事吗?"
decision = ask_agent(prompt, context)
if decision == "行动":
switch_to_brief_mode() # 简洁输出,不刷屏
execute_task()
else:
continue_sleeping()15秒阻塞预算是硬性约束,Brief模式强制简洁输出,确保Agent不会长时间霸占用户的终端或打断工作流。
autoDream是KAIROS集成的记忆整合子系统:用户空闲时fork一个子Agent在后台做记忆蒸馏,把一天的观察合并、消除矛盾、把模糊见解固化为确定性事实。
代码注释展示的典型触发场景包括:检测到有人review你的GitHub PR时主动拉取diff生成改进建议、每天凌晨自动运行测试套件并在失败时发送诊断报告、上游库发布新版本时评估影响并提交升级PR、代码变更后自动更新相关文档保持一致性。
WaveSpeedAI(多模态AI推理加速创新技术公司)的研究者Dora的评估保持了清醒:KAIROS究竟是系统设计的抱负、内部实验,还是产品方向的预告,我真的说不准。Anthropic研究博客没有公开提及KAIROS。但一个始终在线、自我记录、整合记忆的AI助手,引发了关于agentic在实践中意味着什么的真实问题。
这种谨慎是有必要的。但有一个判断是确定的:KAIROS定义的不只是一个功能,而是AI Agent从"响应式工具"进化到"数字同事"的技术路径。目前企业部署的AI大多数是前者:你问它答。KAIROS描述的是下一代:事件驱动、主动感知、持续运行的AI工作节点。
Bessemer Venture Partners(BVP,柏尚投资)的判断很直接:企业需要内化的根本转变是:AI Agent不是工具,它们是行动者,代表你做出决策、采取行动、与系统交互。保护一个行动者是与保护一个工具根本不同的问题。
Harness工程:被低估的AI护城河
现在可以回到开头那个数据了。
同款Claude Opus 4.5模型,CORE基准测试(多个、具有不同侧重点的评估框架或基准的统称)下:Claude Code的harness得分78%,Smolagents框架得分42%。这不是偶然,这是harness工程能力的直接体现。
Harness的本质,ML6.eu(专注于AI和机器学习的比利时公司)给出了一个精准的操作系统类比:模型相当于CPU,提供原始处理能力;上下文窗口相当于RAM,有限且易失;Harness相当于操作系统,管理什么内容进RAM、处理启动序列、提供标准工具驱动;Agent是运行在OS上的应用程序。同样的CPU,跑在Windows上、Linux上、实时操作系统上,能完成的任务类型和稳定性差别显著。
Claude聊天界面、Claude Code、企业API集成,用的是同一个Claude模型,相同的权重,行为却截然不同。差异在harness:模型能访问什么工具,如何解析工具调用结果,失败时的重试策略,输出的格式约束,安全边界和权限控制。
Claude Code的harness让模型表现得像专业程序员,聊天界面的harness让模型表现得像友好助手:同一个大脑,外部接口塑造了不同的人格。
![图片[6]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010132597-1775235692-f6cbb08ec06511784ce8a7919e329c69.jpeg)
生产级Harness的构建难度被严重低估。harness-engineering.ai的研究数据:2025年病毒式传播的自主Agent Manus,harness准备好生产之前花了6个月加5次完整架构重写;LangGraph执行引擎迭代了1年多,经历了4种架构;小团队从零开始通常需要2到4个月。这些不是周末项目,而是堪比构建数据库或操作系统调度器的严肃基础设施工作。
Claude Code源码恰好是这些问题的标准答案:Bash命令的AST解析、文件编辑的冲突检测、记忆系统的自愈机制、Query Engine的成本优化,每一项都是踩坑后的工程积累。
独立工程师Alex Kim的评价是:真正的损失不是代码,而是Feature Flag里的产品路线图。KAIROS、反蒸馏机制,这些是竞争对手现在可以看到并做出反应的战略细节。代码可以被重构,但战略惊喜一旦泄露就无法收回。
OpenAI的Operator、Google的Project Astra、Microsoft的Copilot Studio,表面上是模型能力的竞争,实质上是harness工程的较量。模型能力在逐渐趋同,而harness的差异决定了最终用户体验。如果说2025年是Agent之年,2026年就是Harness之年。
与主流开源框架的对比
把Claude Code与2026年主流开源框架并排对比,看得最清楚。
架构哲学的核心分歧在于编排逻辑的载体。开源框架里,多Agent编排是写成代码的:你要定义节点、边、状态流转,清晰且可调试。Claude Code里,Coordinator的编排算法是写成提示词的,不是代码。这让编排更灵活、更容易被模型理解,但可预测性更弱,调试也更麻烦。
记忆系统是最大分水岭。开源框架构建的Agent容易在会话超过1小时后出现幻觉、重复、遗忘问题,Claude Code可以稳定运行数天。LangGraph需要外接LangMem才能补这个能力,CrewAI只有基础短期记忆,AutoGen完全没有内置记忆。
Particula.tech的工程团队分享了一个很有代表性的案例:他们用CrewAI两天做出原型,但在条件分支和状态回滚的表达上撞墙。切换到LangGraph后一周完成生产部署。框架选择可以直接决定项目能不能做出来,这不是夸张。
企业级Agentic AI架构:超越单Agent的系统工程
Claude Code可以算作企业级Agentic AI的"最小可用单元",但企业实际部署需要的是"系统级"能力。
Gartner 2026年初的调查数据:61%的组织已开始agentic AI开发,但仅2%完成全规模部署。这个巨大落差说明技术可行,但系统复杂度超出了大多数团队的预期。
对于企业级架构的核心特征,Kellton的研究给出了四项:有界自主性(Bounded Autonomy,Agent能做什么不能做什么必须有运营边界)、情境感知(Contextual Awareness,Agent要植根于企业数据,而不是凭空推理)、编排能力(多Agent协调调度)、治理机制(每次行动可审计可追溯)。
在Claude Code这样的Agent Harness基础上,企业需要叠加三层"企业外壳"。
第一层:治理层(Governance Layer)。策略引擎(定义谁能调用哪个Agent、哪些操作需要审批)、审计追踪(完整决策链路记录,能回溯"是哪个Tool调用出了问题、使用了哪些数据、谁批准了这次操作")、成本控制中心(实时Token消耗监控,超预算自动限流或降级)。
第二层:集成层(Integration Layer)。MCP+A2A双协议栈(MCP负责Agent与工具连接,A2A负责Agent间通信,复杂企业系统几乎总是同时需要这两种协议)、企业系统连接器(ERP、CRM、数据仓库、知识库)、身份认证中继(Agent以用户身份调用内部API的凭证管理和SSO集成)。目前MCP生态已增长到10,000个以上活跃服务器,年增10倍,企业集成成本因此下降了70到80%。
第三层:可观测性层(Observability Layer)。实时监控(Agent当前做什么、卡在哪里、有无异常)、性能分析(哪些Agent效率高、哪里是成本黑洞)、异常检测(行为模式突变时自动触发告警或熔断,例如Agent突然大量调用删除文件的Tool)。
![图片[7]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010134228-1775235694-0753ed742ed870f0c6a2b897593ba9b3.png)
标杆案例。2026年1月,e&(中东电信运营商)与IBM在达沃斯宣布合作,基于watsonx Orchestrate构建企业级Agentic AI平台,这是目前少数公开的全规模部署案例。
该架构的要点事每个Agent有明确的职责范围和权限上限,超出范围强制升级给人类或Supervisor Agent;关键决策点(如超过10万美元的采购审批)强制人类确认;所有Agent行为自动生成符合金融/医疗合规标准的审计报告。上线后,e&的合规流程处理时间从平均17天缩短到3天,准确率从82%提升到96%。
这个案例证明:正确架构的企业级Agentic AI确实能产生可量化的商业价值,但前提是有个"正确架构",不要把Claude Code直接搬进去。
Claude Code架构vs企业级需求:差了三层
Claude Code的harness工程极其扎实,但它的设计边界是"单用户、单项目的编码Agent"。把它直接搬进企业,会发现三层关键能力缺失。
第一层缺失:组织级权限与治理。Claude Code的权限系统是工具级别的,BashTool是HIGH风险,FileReadTool是LOW风险。企业需要的是组织级别的权限:张三的Agent能访问订单系统但不能访问HR数据,整个财务部门的Agent操作记录必须独立归档供审计。
Kong Inc.的分析说得很直接:没有治理的情况下快速部署Claude Code,每个会话都成为开发者、专有代码库和Anthropic API之间的非监控管道。解决方案是在Claude Code前面加一层AI Gateway,统一管理LLM流量的路由、限速和审计。
第二层缺失:跨系统集成能力。Claude Code的工具集以代码工程为中心:读写文件、执行bash、调用API、抓取网页。企业复杂业务流程需要的是:对接SAP工单系统、调用Salesforce CRM接口、触发内部审批工作流、向数据仓库写入结果。这些集成要么自己开发工具插件,要么引入MCP或A2A协议打通。
第三层缺失:企业级可观测性与成本控制。Claude Code有内部性能监控,但不对企业管理员开放。企业场景下,你必须能回答:这个月AI Agent帮工程师节省了多少工时?哪个业务流程的token消耗最高?哪次Agent执行偏离了预期路径?没有独立的可观测性栈,这些问题都是黑盒。
换个说法:Claude Code是一把极其精良的手术刀,大医院手术室需要的是整套医疗器械管理系统。
企业落地路径:三条路、三道坎、三个阶段
三条路
路径一:直接采用Anthropic官方Claude Code。开箱即用,持续迭代,有专属SLA保障。劣势是需要额外部署AI Gateway进行治理,会话数据经过Anthropic云端(数据合规需评估),定制空间有限。适合中小团队或快速验证阶段。以50人团队为例,年成本约25到40万美元含API调用。
路径二:基于claw-code等干净室重写版本自建。完全掌控源码,可替换底层模型(本地部署的Llama或Qwen),无数据出境风险。劣势是技术门槛极高,需要3到5名资深工程师投入2到4个月,harness可复现但Claude模型的协同优化无法复制,法律风险未定(claw-code的"干净室"地位尚未经法院检验)。
适合有强AI工程团队的大型企业和金融/政府/医疗等对数据主权要求高的行业。初期开发成本约50到100万美元,年维护成本约20到30万美元。
路径三:将泄露架构内化为自有Agentic平台设计蓝图。学习Claude Code的架构模式(三层记忆、Tool权限系统、多Agent编排),用自己的技术栈实现,深度融合企业现有系统。工程量最大,通常需要6到12个月和10人以上团队,但长期TCO(总拥有成本)最低,一旦平台成熟可复用到多个业务线,边际成本趋近于零。适合超大型企业和有长期AI战略投入预算的组织。
三道坎
技术坎:Harness可学,模型协同优化不可复制。Anthropic对Claude做了针对性强化学习,让它更擅长使用Claude Code的Tool系统。换用开源模型,即便接同样的harness,效果也会显著下降。这是结构性限制,工程手段无法完全弥补。
法律坎:AI生成代码的版权空洞仍在法院讨论中,边界未定。建议法律团队密切跟踪Thaler v. Perlmutter等案件的后续判例,在法律明朗前保持行动谨慎。
治理坎:没有AI Gateway的组织,每个Claude Code会话都是未受监控的管道。Forrester的数据很直接:每次非合规AI Agent事件平均损失240万美元,IBM测算的AI Agent安全事件平均代价是463万美元。必须先回答:Agent访问了哪些数据?做了哪些操作?花了多少钱?答案都是"不知道"的组织,风险敞口比想象的大。
Kore.ai CEO Raj Koneru有一段话可以作为决策参考:"企业需要决定把精力放在哪里:是维护AI Agent平台,还是构建能驱动业务价值的智能Agent。"对大多数企业而言,维护平台应该外包给成熟供应商,自己的稀缺资源要放在构建业务价值上。
三个阶段:从验证到自主的落地路线图
![图片[8]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010136185-1775235696-d1b37fa43e2150de8f4e1ce8c545a14b.png)
▲ Claude Code企业级架构图 点击看大图
第一阶段(0到3个月),建立基准。用官方Claude Code跑通核心场景,通过AI Gateway(如Kong、Gravitee)给所有会话加上流量监控和审计层,配置CLAUDE.md文件建立项目级知识库。这一步的目标是搞清楚在你们的业务场景里Claude Code能完成什么、失败在哪里,为后续投入决策提供数据依据。
第二阶段(3到9个月),构建企业工具层。参照Claude Code的Tool架构(独立模块、manifest、schema、权限等级),把企业内部系统封装成标准工具插件:ERP查询工具、CRM写入工具、审批触发工具、数据仓库工具,接入MCP协议后这些工具可被所有兼容框架调用。
同时建立三层记忆体系:业务索引文件(对应MEMORY.md)、部门知识文档(对应Topic Files)、历史操作记录(对应Session Transcripts),用向量检索补足grep的语义理解缺口。
第三阶段(9到18个月),演化为多Agent业务编排平台。参考Coordinator Mode(核心是流程管理与组件协调),设计Supervisor Agent统一调度子Agent完成"分析→规划→执行→审核"流水线。
引入KAIROS思路,把被动触发的Agent升级为订阅业务事件(工单创建、代码提交、审批完成)的主动Agent,同时建立完整可观测性栈:每次Agent执行的输入、工具调用链、输出、耗时、token消耗,全部入库可查。
这三个阶段走完,企业构建的不是复制品,而是基于Claude Code架构智慧、深度融合自身业务数据和系统的专属Agentic平台。
后记:这512,000行真正送出去的是什么
一行缺失的.npmignore,Anthropic送出去的表面是源码,实质是一套经过真实生产验证的企业级AI Agent建造手册。
这比任何论文、任何架构白皮书都要诚实,因为它是在赚钱的生产系统里跑出来的,不是演示稿。
46,000行QueryEngine是无数次API超时积累的经验,三层记忆系统是无数次上下文爆炸后的教训结晶,2,500行Bash安全验证代码是对"Agent能干什么不能干什么"边界的反复摸索。每一项都是真金白银的工程投入,现在全摆在了全球开发者面前。
企业制定Agentic AI战略时,从这次泄露最值得带走的是三个判断。
其一,Harness工程是企业AI能力的真正门槛。同款模型,harness好不好,能差出将近一倍的性能。把工程投入放在这里,比反复对比哪家模型更强有意义得多。
其二,KAIROS代表了AI Agent从"工具"到"数字员工"的进化方向。但现在就部署,必须有有界自主性和治理机制作为前提,否则合规审查过不了关。
其三,复刻不是出路,借鉴才是正确姿势。架构思想可以学,合规开源实现可以用,但Claude Code真正的竞争壁垒是Anthropic持续强化学习出来的模型与harness的协同默契——这个结构性优势,无法通过工程手段完全复制。
企业的正确打法是:用Claude Code跑业务,把架构模式内化进工程文化,长期建立在特定业务领域的Agentic能力积累。
这才是一行缺失的.npmignore真正值钱的地方。
![图片[9]-聊聊Claude Code源码泄露、Harness工程与企业级Agentic AI架构-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010141416-1775235701-50e7eb2a579212681f26f3a99602da22.jpeg)
有人可能会问,这次Anthropic的损失是不是很大?对于这个问题,只能说智者见智了。
已经泄露的源码彰显了Claude Code的工程化能力,以致于有声音说这是它的一次事件营销(两次同样的泄露操作也确实值得画一),只是把这些代码全部看完,无非就是指向当下技术圈最火热的一个词:harness。
写到这里,我想到了一句话:一力降十会。
harness再强,无非是大模型能力不足够强的一个产物,或者说过渡性产品,一切仍然还遵循着那个原则:模型即应用。当模型能力足够强大能够胜任所有复杂任务执行了,harness这套东西可能也就需要“鸟尽弓藏”了。
按厂商未放出的大模型领先当前模型1-3代的行业惯例,不知道Anthropic的模型能力已经能够强到什么程度,它与美国军方合作的大模型已经证明了这一点。Anthropic的竞争力仍然在模型上,甚至不在意任何人拿走它的产品工程代码,因为其中的本源在于它的大模型,拥有自己harness生态的企业客户认的也是它的大模型。
按照这个思路,这次源码泄露是不是更像一次事件营销了,哈哈哈。近期Anthropic的一系列事件,也证明他们是有这个炒作能力的。一个热搜,让码农之外的多少人知道了Claude Code。
我们就不管这些了。好好琢磨一下把这套从源码中提取的harness方法论用于企业生产力,对于大部分企业而言是相当大的价值。
扩展阅读:
• Anthropic工程博客:Harness design for long-running application development https://www.anthropic.com/engineering/harness-design-long-running-apps • Layer5.io:512,000 Lines, a Missing .npmignore https://layer5.io/blog/engineering/the-claude-code-source-leak-512000-lines-a-missing-npmignore-and-the-fastest-growing-repo-in-github-history/ • claw-code开源项目:https://github.com/instructkr/claw-code • Kong Inc.:Governing Claude Code with AI Gateway https://konghq.com/blog/engineering/claude-code-governance-with-an-ai-gateway
看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,也可以给个星标,你的支持就是我的动力。 推荐阅读





<原文链接:https://mp.weixin.qq.com/s/8Cs6VwVF7F-2Ra203A-A7Q













暂无评论内容