3月31日，Anthropic照常更新Claude Code，版本号2.1.88，看着毫无波澜。

一个小时后，安全研究员Chaofan Shou在X上发了条帖子：他翻npm包，找到一个source map文件，里面藏着Claude Code的完整TypeScript源代码。

51.2万行代码、1900个文件、35+子系统全部曝光。

24小时内，GitHub上冒出多个fork仓库，其中一个拿下3.2万星标、4.4万次fork。全球开发者像拆圣诞礼物一样，把这个AI编程工具翻了个底朝天。

看完代码大家才意识到用好AI的门道原来这么多，所谓「Harness工程」原来这么玩！

今天，我们聊聊这堂价值数十亿美元的系统架构公开课。

Python重构避免版权问题的claw-code项目飙升

Claude Code这次究竟暴露了啥？

先澄清一个误解：这些泄露的不是AI模型。

这次暴露的是Anthropic官方套壳的Claude Code代码，涉及到怎么调度AI模型、管理记忆、执行工具、处理权限，这一整套工程代码。

打个比方：AI模型是千里马，泄露的是驯马师的全套手册。技术上看影响好像还好，但这事可能比泄露模型权重更重要。

它等于告诉所有开发者、用户，AI编程赛道头部玩家如何管理AI员工、设计AI产品。

看完这套框架，你不一定能开发出好的AI产品，但一定对用好AI会有更深的理解。

三层记忆与睡眠模式

用AI写过代码的人大概都碰过这种事：前10分钟它还记得你的项目结构，半小时后就开始犯糊涂，把写好的函数名搞错，甚至忘了你在做什么。

业内有时候会把这种情况称为「上下文熵增」：对话越长，AI越容易产生幻觉和矛盾。所有AI编程工具都卡在这里。

Claude Code的源代码揭示了Anthropic的解法：三层记忆架构。

第一层：MEMORY.md 轻量索引

每次会话启动，Claude Code都会加载一个叫MEMORY.md 的文件。这个文件不存数据，存的是各种信息、文件地址，每行大约150个字符，指向具体的文件。类似图书馆的索引卡，告诉AI哪个文件放在哪个文件夹，你需要了自己去拿。

为了避免索引被滥用，还设置了25KB的上限，需要持续优化，防止「工作记忆」被垃圾信息淹没。

第二层：主题文件，按需加载

简单说就是项目知识分散在多个主题文件中，用到才加载。你在改前端代码，AI不会把后端架构文档也塞进来占token。

尽可能降低AI的上限文窗口占用。

第三层：完整会话记录，可搜索但不回读

这是最有趣的一个点，Claude Code得所有历史对话都会保存，但AI不会每次执行任务都把以前的对话都看一遍。

只有需要了解某个具体细节时，Claude Code会搜索，提取相关片段，看看当时提的要求是什么，怎么设计的。

三层配合，用最小的上下文开销覆盖最大的知识范围，已经是很精妙了设计，但源代码里还藏着更有趣的东西。

聊天多了、执行多了，记忆同样会爆炸，前面的优化只是解决眼下的问题，面对信息爆炸该怎么办？

Anthropic设计了后台进程KAIROS，它会执行名为AutoDream（对，就叫「自动做梦」）的程序，就像人类睡觉时大脑整理记忆一样，在不干活时悄悄管理记忆。

AutoDream之前就已经公布了，但这次暴露了它的实现原理：

定向扫描：读取记忆索引和已有主题文件
信号采集：从每日日志里提取新信息，检测「记忆漂移」，揪出跟当前代码矛盾的旧记忆
整合归并：把新信号合并进主题文件，相对日期转绝对日期，删掉过时的事实
修剪索引：更新MEMORY.md，控制在25KB以内

Claude Code正在变成「常驻CTO」，记住你的项目，后台主动消化、整理、更新对项目的理解。

提示词工程到「Harness 工程」

看到这，无论你用AI的水平如何，想必都能感受到Anthropic在管理AI上确实有一套。

值得我们学习的还不止这些！

源代码泄露前一周，Anthropic官方博客发了一篇被严重低估的文章：《Harness Design for Long-Running Application Development》。

作者Prithvi Rajasekaran来自Anthropic Labs团队，提了一个新概念：Harness Engineering，缰绳工程。

2024年是「提示词工程」元年，2025年轮到「上下文工程」，2026年新战场叫「缰绳工程」。

所谓「缰绳工程」就是随着AI能力继续提升，我们需要的已经不是简单的一句一句和AI对话，而是要设计一套系统，驯服AI写代码的过程，让它在长时间复杂任务里不跑偏、不掉链子。

Rajasekaran发现，AI独立完成复杂编程任务有两个致命问题：

上下文焦虑，对话变长，AI开始「紧张」，觉得自己快用光上下文窗口了，于是匆忙收尾、草率交活。这是行为问题，不是幻觉问题。

自我评估偏差，让AI检查自己写的代码，跟让学生给自己的考卷打分一样，几乎总给高分，哪怕代码一塌糊涂。

他的解法借鉴了GAN（生成对抗网络）的思路：Generator（生成器）：负责写代码，Evaluator（评估器）：负责打分、找bug、提改进意见。

两个独立的AI，一个干活，一个挑刺。评估器用Playwright实际操作运行中的应用，点按钮、填表单、测API，然后按详细标准打分反馈。

同一句需求：「做一个2D复古游戏编辑器，包含关卡编辑、精灵编辑、实体行为和可玩测试模式。」

任务跑下来，效果惊人、成本也惊人：普通模式下一个Agent开发20分钟，花了9美元，做出一个能看不能玩的游戏。

采用Harness工程，AI开发了6个小时，花了200美元，但造出了真正的游戏，不光完成了基本需求，还自动扩展出16个功能模块：精灵动画系统、行为模板、音效音乐、AI辅助关卡设计、游戏导出和分享链接。

贵了20倍以上，但也带来了真实能力的质变。

普通人可能只看到花更多钱就能取得更好的效果，但真正的创业者会意识到，好的「Harness工程」藏着巨大的机会。

你不需要会开发AI大模型，只是在模型的管理与控制上有一套自己的解法，或许就能推出一个崭新的产品。

官方演示的游戏原型

重新认识AI时代的护城河

AI工具的护城河在哪？这个问题的答案一直在变。

2024年拼模型能力，2025年大家在提上下文管理，到了2026年回到了最本质的问题：系统工程。

Claude Code的泄露就是告诉大家：模型是发动机，模型之上的各种设计才能造出真正的赛车。

从提示词工程到上下文工程，再到缰绳工程，AI时代的技术范式每半年刷新一次。

面对这么多概念、炒作，你是不是感觉手足无措？无从下手？

如果你也想快速了解最新、最有价值的AI用法，成为驾驭AI工程的人，欢迎加入前哨AI小课第五季

前哨AI小课2022年上线，Tina帮助数千会员持续迭代，掌握最前沿的AI工具、最佳实践，帮助大家把AI用到自己的工作生活中。

与其碎片化地追热点，不如用一套结构化课程，把AI的底层逻辑一次搞清楚。

👉 扫码/点击链接，加入「前哨AI小课」，用最短时间建立最扎实的AI认知。

<原文链接：https://mp.weixin.qq.com/s/0OKNK4cc5cq6GBpQCgQXaA

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

Claude Code泄密！演示AI最前沿的「Harness工程」！

Claude Code这次究竟暴露了啥？

三层记忆与睡眠模式

重新认识AI时代的护城河

请登录后发表评论