Claude揭秘Agent设计：越强AI越要少管-AI Express News

超级峰

读完需要

分钟

速读仅需 2 分钟

/ Claude揭秘Agent设计：越强AI越要少管 /

最近Anthropic发布了一篇让Agent开发者集体沉默的博客。

他们的发现很反直觉：给Claude越简单、越通用的工具，它反而表现得越好。精心设计的专用工具？反而拖了后腿。

具体有多反直觉？在BrowseComp测试中，让Claude自主使用bash和text editor，准确率从45.3%飙升到61.6%——不是靠更复杂的框架，而是靠更少的约束。

1核心洞察：Agent harness正在编码过时的假设

Anthropic的核心发现是：你为Agent构建的harness（脚手架），很可能正在限制它的能力。

这背后的逻辑链是清晰的：

当你设计一个专用工具时，你在编码自己对"AI能做什么"的假设
但AI模型的能力在不断进化，你的假设很快就会过时
过时的假设变成了约束，而非助力

打个比方：你给一个博士级研究员配了一个只能填表的助手。研究员明明可以自己做深度分析，但助手只会帮你查资料和填表格。这个助手就是你的Agent harness——你以为在帮忙，实际在限制。

2三大设计模式详解

2.1模式一：用模型已知的工具

Claude最擅长什么？写bash命令和编辑文本文件。

与其为它设计一个"搜索API调用工具"，不如直接让它写curl命令。与其设计一个"代码审查工具"，不如让它直接读代码文件。

原因很简单：模型在海量bash命令和文本编辑数据上训练过，它对这些工具的"使用直觉"远超任何你新设计的API。

2.2模式二：不断追问"哪些可以不做"

这是最反直觉的一条。传统软件工程的直觉是"还需要加什么功能"，但Agent设计的正确问题是"还能去掉什么"。

每添加一个工具定义、一条系统指令、一个流程约束，你都在做一件事：告诉AI"你只能这样做"。

2.3模式三：谨慎设定Agent harness边界

harness不是能力增强器，而是能力约束器。你加的每一条规则，都是在说"AI不能超出这个范围"。

当然，某些边界是必要的（安全、合规）。但问题是：大多数开发者加的边界，不是出于安全考虑，而是出于"我觉得AI需要被这样引导"的习惯。

3BrowseComp案例深度拆解

BrowseComp是一个网页浏览理解测试。来看看Claude的表现变化：

标准工具调用方式：准确率45.3%
代码执行方式（让Claude自主写bash脚本浏览网页）：准确率61.6%

差异在哪里？

标准方式下，Claude需要先"思考要调用什么工具"，然后"按照工具定义传参"，最后"解析工具返回的结果"。每一步都在消耗推理能力。

代码执行方式下，Claude直接写一个完整的bash脚本，自主决定搜索策略、页面解析方式、结果提取逻辑。推理能力全部用在解决实际问题上，而非适配工具接口。

4从系统提示词到Skills的范式变化

更深层的变化正在发生：Claude正在学会自主管理上下文。

以前的模式：系统提示词硬编码所有规则 → AI被动执行

现在的模式：定义Skills（能力描述）→ AI自主决定何时使用、如何组合

这意味着开发者的角色从"为AI设计工具"转向"为AI描述能力"。后者更抽象，但也更强大。

5独立开发者的实践启示

5.1立即可行的三条建议

审查你的Agent工具定义：删掉那些"为了方便AI理解"但实际限制了灵活性的工具
用bash+text editor替代专用工具：如果你的Agent在执行通用任务，试试让它直接写脚本
减少系统提示词长度：把100行的提示词压缩到20行，可能效果反而更好

5.2本质认知升级

Agent开发的核心竞争力不是工具丰富度，而是推理深度。

当你发现Agent表现不佳时，第一反应不应该是"加个新工具"，而应该是"是不是现有工具在限制它"。

6总结

Anthropic这篇博客的深层信息是：AI Agent的开发哲学正在从"加法"走向"减法"。

不是给AI更多工具，而是给它更少的约束。不是为AI设计更多流程，而是让它自主决定流程。

在AI能力飞速进化的今天，"少管"可能是你能给AI最好的帮助。

<原文链接：https://mp.weixin.qq.com/s/t89qbJ_dluBgjy5M4xcBaw

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

Claude揭秘Agent设计：越强AI越要少管