Claude Code泄密!演示AI最前沿的「Harness工程」!

图片[1]-Claude Code泄密!演示AI最前沿的「Harness工程」!-AI Express News

3月31日,Anthropic照常更新Claude Code,版本号2.1.88,看着毫无波澜。

一个小时后,安全研究员Chaofan Shou在X上发了条帖子:他翻npm包,找到一个source map文件,里面藏着Claude Code的完整TypeScript源代码。

51.2万行代码、1900个文件、35+子系统全部曝光。

24小时内,GitHub上冒出多个fork仓库,其中一个拿下3.2万星标、4.4万次fork。全球开发者像拆圣诞礼物一样,把这个AI编程工具翻了个底朝天。

看完代码大家才意识到用好AI的门道原来这么多,所谓「Harness工程」原来这么玩!

今天,我们聊聊这堂价值数十亿美元的系统架构公开课。

图片[2]-Claude Code泄密!演示AI最前沿的「Harness工程」!-AI Express News
Python重构避免版权问题的claw-code项目飙升

Claude Code这次究竟暴露了啥?

先澄清一个误解:这些泄露的不是AI模型

这次暴露的是Anthropic官方套壳的Claude Code代码,涉及到怎么调度AI模型、管理记忆、执行工具、处理权限,这一整套工程代码。

打个比方:AI模型是千里马,泄露的是驯马师的全套手册。技术上看影响好像还好,但这事可能比泄露模型权重更重要。

它等于告诉所有开发者、用户,AI编程赛道头部玩家如何管理AI员工、设计AI产品。

看完这套框架,你不一定能开发出好的AI产品,但一定对用好AI会有更深的理解。

图片[3]-Claude Code泄密!演示AI最前沿的「Harness工程」!-AI Express News

三层记忆与睡眠模式

用AI写过代码的人大概都碰过这种事:前10分钟它还记得你的项目结构,半小时后就开始犯糊涂,把写好的函数名搞错,甚至忘了你在做什么。

业内有时候会把这种情况称为「上下文熵增」:对话越长,AI越容易产生幻觉和矛盾。所有AI编程工具都卡在这里。

Claude Code的源代码揭示了Anthropic的解法:三层记忆架构

第一层:MEMORY.md 轻量索引

每次会话启动,Claude Code都会加载一个叫MEMORY.md 的文件。这个文件不存数据,存的是各种信息、文件地址,每行大约150个字符,指向具体的文件。类似图书馆的索引卡,告诉AI哪个文件放在哪个文件夹,你需要了自己去拿。

为了避免索引被滥用,还设置了25KB的上限,需要持续优化,防止「工作记忆」被垃圾信息淹没。

第二层:主题文件,按需加载

简单说就是项目知识分散在多个主题文件中,用到才加载。你在改前端代码,AI不会把后端架构文档也塞进来占token。

尽可能降低AI的上限文窗口占用。

第三层:完整会话记录,可搜索但不回读

这是最有趣的一个点,Claude Code得所有历史对话都会保存,但AI不会每次执行任务都把以前的对话都看一遍。

只有需要了解某个具体细节时,Claude Code会搜索,提取相关片段,看看当时提的要求是什么,怎么设计的。

三层配合,用最小的上下文开销覆盖最大的知识范围,已经是很精妙了设计,但源代码里还藏着更有趣的东西。

聊天多了、执行多了,记忆同样会爆炸,前面的优化只是解决眼下的问题,面对信息爆炸该怎么办?

Anthropic设计了后台进程KAIROS,它会执行名为AutoDream(对,就叫「自动做梦」)的程序,就像人类睡觉时大脑整理记忆一样,在不干活时悄悄管理记忆。

AutoDream之前就已经公布了,但这次暴露了它的实现原理:

  1. 定向扫描:读取记忆索引和已有主题文件
  2. 信号采集:从每日日志里提取新信息,检测「记忆漂移」,揪出跟当前代码矛盾的旧记忆
  3. 整合归并:把新信号合并进主题文件,相对日期转绝对日期,删掉过时的事实
  4. 修剪索引:更新MEMORY.md,控制在25KB以内

Claude Code正在变成「常驻CTO」,记住你的项目,后台主动消化、整理、更新对项目的理解。

提示词工程到「Harness 工程」

看到这,无论你用AI的水平如何,想必都能感受到Anthropic在管理AI上确实有一套。

值得我们学习的还不止这些!

源代码泄露前一周,Anthropic官方博客发了一篇被严重低估的文章:《Harness Design for Long-Running Application Development》。

作者Prithvi Rajasekaran来自Anthropic Labs团队,提了一个新概念:Harness Engineering,缰绳工程。

2024年是「提示词工程」元年,2025年轮到「上下文工程」,2026年新战场叫「缰绳工程」。

所谓「缰绳工程」就是随着AI能力继续提升,我们需要的已经不是简单的一句一句和AI对话,而是要设计一套系统,驯服AI写代码的过程,让它在长时间复杂任务里不跑偏、不掉链子。

Rajasekaran发现,AI独立完成复杂编程任务有两个致命问题:

上下文焦虑,对话变长,AI开始「紧张」,觉得自己快用光上下文窗口了,于是匆忙收尾、草率交活。这是行为问题,不是幻觉问题。

自我评估偏差,让AI检查自己写的代码,跟让学生给自己的考卷打分一样,几乎总给高分,哪怕代码一塌糊涂。

他的解法借鉴了GAN(生成对抗网络)的思路:Generator(生成器):负责写代码,Evaluator(评估器):负责打分、找bug、提改进意见

两个独立的AI,一个干活,一个挑刺。评估器用Playwright实际操作运行中的应用,点按钮、填表单、测API,然后按详细标准打分反馈。

同一句需求:「做一个2D复古游戏编辑器,包含关卡编辑、精灵编辑、实体行为和可玩测试模式。」

任务跑下来,效果惊人、成本也惊人:普通模式下一个Agent开发20分钟,花了9美元,做出一个能看不能玩的游戏。

采用Harness工程,AI开发了6个小时,花了200美元,但造出了真正的游戏,不光完成了基本需求,还自动扩展出16个功能模块:精灵动画系统、行为模板、音效音乐、AI辅助关卡设计、游戏导出和分享链接。

贵了20倍以上,但也带来了真实能力的质变。

普通人可能只看到花更多钱就能取得更好的效果,但真正的创业者会意识到,好的「Harness工程」藏着巨大的机会。

你不需要会开发AI大模型,只是在模型的管理与控制上有一套自己的解法,或许就能推出一个崭新的产品。

官方演示的游戏原型
官方演示的游戏原型

重新认识AI时代的护城河

AI工具的护城河在哪?这个问题的答案一直在变。

2024年拼模型能力,2025年大家在提上下文管理,到了2026年回到了最本质的问题:系统工程。

Claude Code的泄露就是告诉大家:模型是发动机,模型之上的各种设计才能造出真正的赛车

从提示词工程到上下文工程,再到缰绳工程,AI时代的技术范式每半年刷新一次。

面对这么多概念、炒作,你是不是感觉手足无措?无从下手?

如果你也想快速了解最新、最有价值的AI用法,成为驾驭AI工程的人,欢迎加入前哨AI小课第五季

前哨AI小课2022年上线,Tina帮助数千会员持续迭代,掌握最前沿的AI工具、最佳实践,帮助大家把AI用到自己的工作生活中。

与其碎片化地追热点,不如用一套结构化课程,把AI的底层逻辑一次搞清楚。

👉 扫码/点击链接,加入「前哨AI小课」,用最短时间建立最扎实的AI认知。

图片[5]-Claude Code泄密!演示AI最前沿的「Harness工程」!-AI Express News

<原文链接:https://mp.weixin.qq.com/s/0OKNK4cc5cq6GBpQCgQXaA

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容