Claude 4 深夜发布,编程助手同步开放。作者 | 陈骏达编辑 | 心缘智东西 5 月 23 日报道,今天凌晨,美国大模型独角兽 Anthropic 在其首届开发者大会上正式发布了下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,这也是 Claude 自 2024 年 6 月以来的首次大版本号更新。Anthropic 将 Claude Opus 4 称之为“世界上最好的编程模型 ”,能在复杂、长时间运行的任务和智能体工作流中表现出稳定的性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级, 以编程和推理能力为核心,同时能更精确地响应用户提示词。这两款模型均为混合模型,提供两种模式:即时回复和用于更深入推理的扩展思考(extended thinking)。在权威编程基准测试 SWE-bench Verified 上,开启扩展思考的 Claude Opus 4 与 Claude Sonnet 4 的得分分别为79.4% 和 80.2%,大幅度超越了 OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro 等模型。在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了 OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4 与 OpenAI o3 得分持平。新模型的智能体能力迎来升级,最高可独立运行 7 小时 ,并推出了 文件 API、提示词缓存 等新功能。Pro、Max、Team 和 Enterprise Claude 订阅用户可使用上述两款 Claude 模型及其扩展思考模式,Sonnet 4 可供免费用户使用。这两款模型都可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上调用,定价与之前的 Opus 和 Sonnet 模型保持一致:Claude Opus 4 为每百万个 token 15 美元 /75 美元(输入 / 输出),Claude Sonnet 4 为 3 美元 /15 美元。Anthropic 还同期发布了 AI 编程助手 Claude Code,这一编程助手接入了 Claude Opus 4 模型,能实时映射和解释百万行级别的代码库。Claude Code 与 GitHub、GitLab、VS Code、JetBrains IDE 和命令行工具集成,可直接嵌入至开发终端中。这一编程助手提供按量计费、每月 100 美元和每月 200 美元的 3 种订阅方案。01.开场 2 分钟甩出重磅新模型,Claude 未来更新频率将加速
在 Code with Claude 开发者大会上,Anthropic 创始人 Dario Amodei 在开场 2 分钟时快步走上台,并未做任何铺垫,便直接甩出了最大的惊喜——Claude 4 系列模型的发布。Amodei 称,Anthropic 已经有一段时间没有更新 Opus 模型了,Anthropic 对 Opus 的定位是旗下最强大、最智能的模型,而 Sonnet 是用户过去大约一年来一直在使用的中等水平模型。Claude Opus 4 在多项基准测试上的成绩并未明显高于 Claude Sonnet 4,甚至略低于后者。Amodei 强调,对于 Claude Opus 4 这样的大型模型,基准测试并不能完全体现其能力。在 Anthropic 提供给客户的预览中,Claude Opus 4 可以在 Anthropic 内部自主完成一些通常需要人类花费 6 到 7 小时的任务,Anthropic 内部一些最资深的工程师都对其带来的生产力提升感到惊讶。Claude Sonnet 4 在多项编程基准测试中的表现与 Claude Opus 4 持平,但前者更为精简,专注于编程等特定任务。Claude Sonnet 4 还 解决了 Claude Sonnet 3.7 在实际使用过程中出现的种种问题,包括过度热情(倾向于做出超出用户要求的事情)与奖励机制问题。Amodei 称,Anthropic 会继续改进 Claude 系列模型,定期发布可能的小版本更新,理想情况下,会比之前发布的频率还要高。02.智能体能力迎升级,最高可独立运行 7 小时
Anthropic 首席产品官、Instagram 联合创始人 Mike Krieger 详细分享了更多 Claude 4 的相关情况。Krieger 称,Claude Opus 4 擅长理解代码库并规划添加内容,从 迁移、代码重构到最复杂的智能体工作流 方面都非常高效且准确。Claude Sonnet 4 在 日常编码任务、应用程序开发和配对编程 方面表现出色。它也适用于高流量用例,平衡了效率和性能,可以被视为“全天候”编码伙伴。Claude 4 系列模型为打造能使用工具的智能体升级了关键的新功能。现在,Claude 4 系列模型可以并行处理多种工具,当被授予访问本地文件的权限时,它们甚至可以在会话之间保持记忆,随着时间的推移积累知识。Krieger 回忆,在加入 Anthropic 后不久,他们曾凭借 Claude 的帮助,仅用 3 人团队成功完成亚马逊 Alexa 语音助手原型的打造,Krieger 这位“前工程师”也重拾代码亲自上阵。这次合作最终使 Claude 成为 Alexa Plus 的核心模型之一。这段经历让 Krieger 更坚信 AI 协作的潜力。如今,AI 已不仅是工具,而是真正的智能协作伙伴,持续推动技术边界。Krieger 提出了 Anthropic 认为的理想智能体三大核心能力:(1)情境智能:理解组织背景,通过经验优化表现,像优秀员工一样越用越好;(2)长期执行:独立处理复杂任务数小时,智能协调资源;(3)深度协作:自然交互、适应工作风格,并保持决策透明。为实现上述三大能力,Anthropic 推出了更多新升级。Claude 现在可以通过 Anthropic API 上的新代码执行工具运行代码,而不仅仅是编写代码,能够加载数据集、清理数据、生成探索性图表,并实时分析异常情况。在与 Claude 4 模型结合后,代码执行工具可以处理复杂任务,节省大量时间。Claude 4 系列模型的自主性进一步提升,Claude 3.7 最多可自主运行 45 分钟,而 Claude 4 可以独立运行数小时,最高达到 7 小时。新模型通过管理待办事项列表保持记忆,不会丢失线索。Anthropic 强调,智能体的广泛采用需要提高模型对保密内容、决策和协调的判断力。如今,Claude 模型的每个功能都包含架构安全检查点和控制措施,确保模型在生产环境中的可靠性。智能体的落地还需要访问现实世界的信息,并与现有系统的连接,为了帮助智能体进一步扩展,Anthropic 推出了 4 项相互关联的新功能。首先,开发者现在可以直接通过 Anthropic API 链接 MCP 协议(模型上下文协议)。如今,MCP 协议被微软、谷歌、OpenAI、Block、Atlassian、Zapier、Linear 等众多公司采用,Anthropic 认为 MCP 有望为智能体经济奠定基础。其次,网络搜索 为 Claude 提供了对当前信息的实时访问。这是一种智能数据增强,允许 Claude 分析当前事件、市场趋势和新兴技术,与 MCP 功能结合使用时也非常强大。第三,文件 API今天起在 Anthropic API 中可用。文件 API 允许 Claude 读取和写入记忆文件,在长时间任务中保持上下文连续性。Anthropic 配套发布“记忆功能食谱”,指导开发者如何集成到应用中。最后,提示缓存功能迎来升级,TTL(生存时间)从 5 分钟提升至 1 小时,这最多能将模型的使用成本降低 90%,延迟减少 85%,尤其适用于长提示词场景、长时间运行的智能体工作流和需要频繁调用相同上下文的重复性任务。Anthropic 还显著减少了 Claude 4 模型使用快捷方式或漏洞完成任务的行为。与 Sonnet 3.7 相比,这种行为的可能性降低了 65%。
Claude Opus 4 在内存能力方面的表现也大大优于所有以前的型号。当开发人员构建提供 Claude 本地文件访问的应用程序时,Opus 4 可以熟练地创建和维护“内存文件”来存储关键信息。这可以解锁更好的长期任务意识、连贯性和代理任务的性能——例如 Opus 4 在玩 Pokémon 时创建“导航指南”。
Claude 4 模型还推出了思维链总结功能,可使用较小的模型来浓缩冗长的思维过程。
03.编程助手全面开放,整合至主流开发平台
Claude Code 在今天迎来全面开放,从研究预览转为正式产品。Claude Code 产品经理 Cat Wu 分享说,除了接入最新模型之外,Claude Code 还推出了多项新功能。Claude Code 现已与VS Code 和 JetBrains 等主流 IDE 集成,在使用过程中,开发者可以直接在编辑器中实时查看 Claude Code 建议的代码改动。Anthropic 还发布了 Claude Code SDK,让开发者能够将 Claude Code 作为构建块融入自己的应用和工作流。为了展示其潜力,Anthropic 在 GitHub 上开源了一个示例项目:用户可以直接在 Pull Request 和 Issue 中 @Claude,它将自动响应审阅意见、修复错误并添加新功能。通过这些更新,Claude Code 已经能够覆盖大部分工作场景,无论是在终端中进行深度开发、在 GitHub 上处理远程协作、通过 SDK 构建自动化工作流,还是在 IDE 中进行代码审查。演示环节中,Claude Code 迅速完成了开源工具 Excalidraw 的表格组件功能开发。Claude Code 会创建任务清单,探索代码库并生成代码,运行测试并提交 Pull Request。它还能通过 GitHub Actions 自动更新文档。短短 10 分钟,Claude Code 完成了通常需要数小时的复杂任务,极大地提升了开发效率。由 Claude Code SDK 驱动的 Claude Code 和 GitHub Actions 现已可用,只需在运行命令即可安装。VS Code 和 JetBrains 的 Web IDE 扩展也同步推出测试版,在 IDE 中运行命令即可安装。04.结语:两条 Scaling Law 路径持续有效,未来 1 年将见证编程革命
Amodei 称,Claude Sonnet 3.7 发布仅两个半月,却感觉像过了一年,这足见 AI 领域的发展之快。他强调,Claude 4 的模型能力来自预训练和后训练的共同进步,预训练 Scaling Law 依然有效,后训练技术也在同步发展,二者相辅相成。展望未来 AI 领域的发展,Amodei 认为我们会在未来一年我们将见证编程领域的革命,从 Claude Code 出发,我们将进入“智能体舰队”时代,成批的智能体会将软件开发自动化,定制化软件的成本显著降低,这将重塑开发者、企业和初创公司的角色。