狂奔AGI，Claude年终封王！自主编码近5小时震惊全网-AI Express News

新智元报道

编辑：KingHZ

【新智元导读】AI是否已撞上天花板？这份「最重要的图表」直击灵魂：2019-2025年任务时长每几个月翻倍，揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦，而是触手可及的现实！

2025年就要结束了，原来真正的高手，隐藏在「民间」！

不是谷歌、不是OpenAI，是Anthropic王者编程模型Claude Opus 4.5。

在METR最新公布报告称，Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。

就连OpenAI最强编程模型——GPT-5.1-Codex-Max也甘拜下风。

现如今，全网都在为Claude Opus 4.5编码实力震撼。

AI编码智能体能处理的任务时长不仅在指数级增长——其增速还在持续提升！

2019-2024年：任务时长每7个月翻一倍

2024-2025年：任务时长每4个月翻一倍

很多人第一次看到这条曲线，会本能地摇头。

有人不理解。有人不愿意接受。

但一个事实越来越清晰：AI编码智能体能连续完成的任务，正在从「分钟级」冲向「小时级」，并且加速度还在上升。

网友认为这是关于AI最重要的图表：

这张图为什么被称为「最重要的图表」？

因为它在回应一个关键的问题：

AI是否撞墙了？AGI是不是另一个乌托邦？2025年，AI到底进步了多少？

普通用户感知不强，很正常。对大多数人来说，模型早就能应付日常提问：

「推荐部电影」「解释这个概念」「写段文案」。

但真正的变化发生在另一条战线上：编码智能体。

而这恰恰是多数人（包括记者与政策制定者）难以触及的形态。

这些进展看似微小，但累积起来却意义非凡。

2026年4月，首批AI智能体将能独立完成一个完整的人类工作日；

2026年底，AI能完成半周的任务量；

2027年底，AI能完成2个月的任务量；

2028年底，AI能完成人类好几个月的工作量；

到2030年，AI能承担一些小型企业或组织的大部分管理工作。

AI指数级增长

智能体时代已来

为了量化比较AI与人类能力，今年3月METR提出了一个新指标：50%任务完成时间跨度（50%-task-completion time horizon）。

换句话，把AI当新人：给它一项工作，看它做到「50%的概率能做成」时，这项工作的人类平均耗时有多久。

GPT-5.1-Codex-Max，已能完成长达2小时53分钟的软件工程任务（成功率50%），能力较o1提升4倍。

而Claude Opus 4.5的50%时间跨度约为4小时49分钟。这已是迄今为止公布的最长的时间跨度。

尽管50%任务完成时间跨度较长，但Opus 4.5模型的80%时间跨度仅为27分钟，与过往模型表现相当，且低于GPT-5.1-Codex-Max模型的32分钟。

但Opus 4.5在50%与80%时间跨度之间的差距，反映出它的逻辑成功率曲线更为平缓，这意味着Opus模型在耗时较长的任务上具有差异化优势。

甚至有人认为，Claude Code已足够接近通用人工智能的定义。

最后这个说法或许夸张——却折射出某种现实。

2025年堪称AI讨论最混沌的一年，实际进展与舆论焦点之间的裂痕从未如此巨大。

但明年或将迎来转变——当编码智能体的影响力渗透至社会经济各个角落时，人们终将目睹它的威力。但愿到那时，我们还能来得及做好充分准备。

AGI逼近

记忆成最后关卡

智能体能把任务做得越来越久，并不奇怪。

此前的研究普遍指向四大原因：

推理更强：能把大任务拆成小任务
工具更熟：会写代码、会查网页、会跑脚本
自纠错更稳：出错后能回滚、能重试、能继续推进
收益非递减：变准一点点，能做的任务跨度会暴增

例如，新一代模型能更好地规划子任务、调用外部工具（如代码编写、网页浏览）并在出错时自我纠正，从而在长达数小时的任务链条中保持高成功率。

当然，在畅想美好前景的同时，我们也要看到目前的局限。

但当任务跨度从「小时」走向「工作日」，新的麻烦会冒出来：

上下文会丢：越做越忘前面说过什么
偏差会积累：小错误滚成大灾难
目标会漂移：做着做着就跑题

说到底，它们都指向同一个核心：长期记忆。

记忆：通往AGI的最后难题

AI几乎所有能力短板，最后都会牵扯到记忆。

你可以把当前大模型想成：一个极聪明、反应极快，但「下班就失忆」的新人。

它能写代码、能推理、能写文章。但会话一结束，它几乎不记得自己做过什么。

现在很多智能体的「记忆」，主要靠两种拼装：

强检索工具：需要时去搜（像在代码库里 grep）
总结压缩塞进上下文：把过去内容压成几段话，再喂回去

虽然信息检索技术已有不小进展，但即便是当前最优秀的RAG（检索增强生成）系统，其准确率也只有约90%。

不断扩大的上下文窗口，确实在改善这个问题：更大的窗口意味着可以将更多数据同时输入模型，从而支持模型更有效地在庞大的记忆索引中「阅读」。

但即便如此，要达到AGI级别的「细致入微」的记忆水平，仍然需要在底层架构上突破。

而且，更大的问题是：没有任何系统真正实现了「自我学习」。

没有长期记忆，AI就无法像人一样「越用越聪明」，无法从错误中学习，更谈不上积累「常识」和「智慧」。

仅仅「记住」还不够，智能体必须能从经验中主动「学习」。

与智能体不同，人类大脑擅长将短期经历转化为长期记忆，在日积月累中形成知识网络和经验教训。

AGI若想达到人类智能的广度与深度，同样需要这样的记忆系统。

业界普遍认为，记忆是通用智能最后但最关键的一块拼图。

换言之，AI现有的「算力」和「智力」，或许已逼近AGI所需，唯一欠缺的是像人一样拥有持久而丰富的记忆。

谁能最先破解「记忆难题」，谁就将在这场AGI竞赛中占据决定性优势。

明年的突破

长期被动记忆

现在的智能体拥有非常强大的「搜索」，比如使用Cursor时，你会发现它几乎能完美从整个代码库中检索信息。

但它们用的依然是「主动记忆」机制：智能体需要自己去「找」记忆，而不是这些记忆自然存在于它的思维中。

这远远不够。

一个运行文本搜索工具grep的智能体，不等于拥有有效记忆的智能体。就像一个计算器并不等于一个数学家。

给智能体一个「搜索记忆工具」不是解决方案。

那么，真正强大的AI记忆系统需要具备什么？

真正的记忆，必须是像人类一样，无需检索、直接知道。

而目前的被动记忆机制还非常原始，一旦任务复杂度稍微提升，就会彻底崩塌，智能体又回到「全靠搜索」的状态。

纽约通用智能公司创始人Andrew Pignanelli预期，未来12个月AI行业会在「被动记忆系统」上取得显著进展。

在接下来的一年中，记忆系统（尤其是智能体的学习能力）将成为AI世界的核心议题，并被正式确认为通向AGI的最后一步。

OpenAI成功推出ChatGPT记忆功能后，Claude近期已跟进，而其他各大模型公司也将纷纷完善自家记忆系统。

长期记忆工具的接入体验将显著提升，尤其随着上下文窗口的持续扩展；
「睡眠时间智能体」会在你不知情的情况下，阅读你的邮件、文件和表格，构建背景知识和个性化记忆；
「实时智能体」将在检索信息方面趋近完美，你的偏好、语言风格、行为习惯都会被快速融入其中。

短期内，自动注入上下文的方式还不会特别自然，为了更准确的记忆检索，大家普遍都会接受「响应更慢」的现实。

但随着AI变得越来越「懂你」，你对AI的依赖也会越来越强。

在消费者端，人们可能注意到「对话开始前有点卡」，但不知道背后是一个庞大的记忆系统在默默运行。

到今年年底，「上下文腐烂」问题（context rot）也将被攻克，方式包括：

启用「遗忘机制」；
专为长期对话设计的上下文清理系统；
更先进的「上下文检索」技术（能从巨大信息堆中精准抽出关键内容）

未来，用户将不再通过文件树导航信息，而是由AI智能体直接帮你检索和访问所需数据。像Replit和Lovable这样的代码生成平台已经在这方面先行一步。

明年春天（2026年）很可能出现由「新一代多模态大模型」与「注意力机制之外的记忆系统」结合带来的突破。

未来12个月内，「记忆+学习」领域可能会出现突破性进展。

OpenAI等领军团队都在全力攻关持续学习和自我记忆技术；一旦他们取得突破，并将其应用在顶尖模型上，我们也许会惊呼：AGI已经出现了。

AGI曙光已现

综合当前的发展态势，可以说：AGI已不再是遥不可及的科幻梦想，而可能近在咫尺。

这种预测并非无穴来风。

回顾过去一年，我们多次低估了AI进化的速度。

GPT-5虽然发布时评价褒贬不一，但其实在长任务执行方面比前代有了大幅提高；Claude 4.5的惊艳表现，更是证明了进步的非线性：当关键技术取得突破时，曲线会突然跃升。

如今，你可以在网上了解到，随着机器智能成为首要的生产要素，正在涌现出新型组织。

这是首次，这一新要素为我们人类提供了改进流程本身的思路。依靠AI，微型团队，竟能产出超越过去数十人甚至上百人团队的工作成果，尤其是在某些专注的软件领域，生产力增长令人震惊。

这种爆发式的效率，真的很难不让人感到兴奋。

这是某种意义上的「阿特拉斯卸下重担」的时刻，是智能生产力「起飞」的征兆。

与2023年那种诗意盎然的「AI觉醒叙事」相比，如今的这一切，显得更平实务实，但更加震撼，更加真实。

如果记忆问题迎来解决，AI能力或将再次爆发。

届时，AI智能体将不仅仅是无休止重复劳作的「工具」，而会变成越用越聪明、与您一同成长的「数字同事」。

它能记住你的偏好。

它能记住你踩过的坑。

它能从项目里提炼经验。

然后在下一次合作里，主动帮你把效率再推高一截。

这正是许多人对AGI在人类社会角色的愿景。

参考资料：

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

https://www.generalintelligencecompany.com/writing/memory-is-the-last-problem-to-solve-to-reach-agi

https://www.shippingapps.dev/writings/memory-last-problem

https://x.com/tszzl/status/2002488418887168297

原文链接：https://mp.weixin.qq.com/s/PxTn1uTOFrKGUfh9a2dwOA

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

狂奔AGI，Claude年终封王！自主编码近5小时震惊全网

【新智元导读】AI是否已撞上天花板？这份「最重要的图表」直击灵魂：2019-2025年任务时长每几个月翻倍，揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦，而是触手可及的现实！

请登录后发表评论