![图片[1]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210401979-1766322241-c56561f3b62aa7032ae0382c63ff632a.jpeg)
新智元报道
【新智元导读】AI是否已撞上天花板?这份「最重要的图表」直击灵魂:2019-2025年任务时长每几个月翻倍,揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦,而是触手可及的现实!
2025年就要结束了,原来真正的高手,隐藏在「民间」!
不是谷歌、不是OpenAI,是Anthropic王者编程模型Claude Opus 4.5。
![图片[2]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210402680-1766322242-15e1c18457ed1524cf9426103a73aa53.png)
在METR最新公布报告称,Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。
就连OpenAI最强编程模型——GPT-5.1-Codex-Max也甘拜下风。
![图片[3]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210404883-1766322244-c05daa9e3066b58711bd708d17d58385.png)
现如今,全网都在为Claude Opus 4.5编码实力震撼。
![图片[4]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210405710-1766322245-14e8f3c7c20c38c9862d405251ea4160.png)
![图片[5]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210406112-1766322246-fd5e0904e1999aa3ee5ce07df1982a6f.png)
![图片[6]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210407957-1766322247-25e01bd5855b7038a36c794fb6a29376.png)
AI编码智能体能处理的任务时长不仅在指数级增长——其增速还在持续提升!
2019-2024年:任务时长每7个月翻一倍
2024-2025年:任务时长每4个月翻一倍
![图片[7]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210408163-1766322248-cd5b72633cfa8cc71e3602c4284a527d.png)
很多人第一次看到这条曲线,会本能地摇头。
有人不理解。有人不愿意接受。
但一个事实越来越清晰:AI编码智能体能连续完成的任务,正在从「分钟级」冲向「小时级」,并且加速度还在上升。
网友认为这是关于AI最重要的图表:
![图片[8]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210409117-1766322249-7aa27cc9882b00ecc65fbbdcb4b9d153.png)
这张图为什么被称为「最重要的图表」?
因为它在回应一个关键的问题:
AI是否撞墙了?AGI是不是另一个乌托邦?2025年,AI到底进步了多少?
普通用户感知不强,很正常。对大多数人来说,模型早就能应付日常提问:
「推荐部电影」「解释这个概念」「写段文案」。
但真正的变化发生在另一条战线上:编码智能体。
而这恰恰是多数人(包括记者与政策制定者)难以触及的形态。
这些进展看似微小,但累积起来却意义非凡。
![图片[9]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210410133-1766322250-ebc366635ee17e3eca26cbdd09393b65.png)
2026年4月,首批AI智能体将能独立完成一个完整的人类工作日;
2026年底,AI能完成半周的任务量;
2027年底,AI能完成2个月的任务量;
2028年底,AI能完成人类好几个月的工作量;
到2030年,AI能承担一些小型企业或组织的大部分管理工作。
![图片[10]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
为了量化比较AI与人类能力,今年3月METR提出了一个新指标:50%任务完成时间跨度(50%-task-completion time horizon)。
换句话,把AI当新人:给它一项工作,看它做到「50%的概率能做成」时,这项工作的人类平均耗时有多久。
GPT-5.1-Codex-Max,已能完成长达2小时53分钟的软件工程任务(成功率50%),能力较o1提升4倍。
而Claude Opus 4.5的50%时间跨度约为4小时49分钟。这已是迄今为止公布的最长的时间跨度。
![图片[11]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210412343-1766322252-9328d93740e505a54d8748a9bd095ecc.png)
尽管50%任务完成时间跨度较长,但Opus 4.5模型的80%时间跨度仅为27分钟,与过往模型表现相当,且低于GPT-5.1-Codex-Max模型的32分钟。
![图片[12]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210414812-1766322254-516fa3bae82c230626e05a58d8421de5.png)
但Opus 4.5在50%与80%时间跨度之间的差距,反映出它的逻辑成功率曲线更为平缓,这意味着Opus模型在耗时较长的任务上具有差异化优势。
甚至有人认为,Claude Code已足够接近通用人工智能的定义。
![图片[13]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210415573-1766322255-81a73cdfb838fcadbcfd8b20f3e4bca8.png)
最后这个说法或许夸张——却折射出某种现实。
2025年堪称AI讨论最混沌的一年,实际进展与舆论焦点之间的裂痕从未如此巨大。
但明年或将迎来转变——当编码智能体的影响力渗透至社会经济各个角落时,人们终将目睹它的威力。但愿到那时,我们还能来得及做好充分准备。
![图片[10]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
智能体能把任务做得越来越久,并不奇怪。
此前的研究普遍指向四大原因:
-
推理更强:能把大任务拆成小任务
-
工具更熟:会写代码、会查网页、会跑脚本
-
自纠错更稳:出错后能回滚、能重试、能继续推进
-
收益非递减:变准一点点,能做的任务跨度会暴增
![图片[15]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210416648-1766322256-07832cb22734e7850475e644add1a561.png)
例如,新一代模型能更好地规划子任务、调用外部工具(如代码编写、网页浏览)并在出错时自我纠正,从而在长达数小时的任务链条中保持高成功率。
当然,在畅想美好前景的同时,我们也要看到目前的局限。
但当任务跨度从「小时」走向「工作日」,新的麻烦会冒出来:
-
上下文会丢:越做越忘前面说过什么
-
偏差会积累:小错误滚成大灾难
-
目标会漂移:做着做着就跑题
说到底,它们都指向同一个核心:长期记忆。
![图片[16]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210417644-1766322257-095743688ba776059bd902c6e08437cf.png)
![图片[17]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005946-e42712f61a4e6b0adba95f6bacb450c6.png)
AI几乎所有能力短板,最后都会牵扯到记忆。
你可以把当前大模型想成:一个极聪明、反应极快,但「下班就失忆」的新人。
它能写代码、能推理、能写文章。 但会话一结束,它几乎不记得自己做过什么。
现在很多智能体的「记忆」,主要靠两种拼装:
-
强检索工具:需要时去搜(像在代码库里 grep)
-
总结压缩塞进上下文:把过去内容压成几段话,再喂回去
虽然信息检索技术已有不小进展,但即便是当前最优秀的RAG(检索增强生成)系统,其准确率也只有约90%。
不断扩大的上下文窗口,确实在改善这个问题:更大的窗口意味着可以将更多数据同时输入模型,从而支持模型更有效地在庞大的记忆索引中「阅读」。
但即便如此,要达到AGI级别的「细致入微」的记忆水平,仍然需要在底层架构上突破。
而且,更大的问题是:没有任何系统真正实现了「自我学习」。
![图片[18]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210419445-1766322259-caa6c32ca84cbf1995bbae826881c2d8.png)
没有长期记忆,AI就无法像人一样「越用越聪明」,无法从错误中学习,更谈不上积累「常识」和「智慧」。
仅仅「记住」还不够,智能体必须能从经验中主动「学习」。
与智能体不同,人类大脑擅长将短期经历转化为长期记忆,在日积月累中形成知识网络和经验教训。
![图片[19]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210421647-1766322261-81b7cee7201ed573bc539b9c25f74874.png)
AGI若想达到人类智能的广度与深度,同样需要这样的记忆系统。
业界普遍认为,记忆是通用智能最后但最关键的一块拼图。
换言之,AI现有的「算力」和「智力」,或许已逼近AGI所需,唯一欠缺的是像人一样拥有持久而丰富的记忆。
谁能最先破解「记忆难题」,谁就将在这场AGI竞赛中占据决定性优势。
![图片[10]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
现在的智能体拥有非常强大的「搜索」,比如使用Cursor时,你会发现它几乎能完美从整个代码库中检索信息。
但它们用的依然是「主动记忆」机制:智能体需要自己去「找」记忆,而不是这些记忆自然存在于它的思维中。
这远远不够。
一个运行文本搜索工具grep的智能体,不等于拥有有效记忆的智能体。就像一个计算器并不等于一个数学家。
![图片[21]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210423297-1766322263-f7ab4b9819768ddd93243172e5380ded.png)
给智能体一个「搜索记忆工具」不是解决方案。
那么,真正强大的AI记忆系统需要具备什么?
真正的记忆,必须是像人类一样,无需检索、直接知道。
而目前的被动记忆机制还非常原始,一旦任务复杂度稍微提升,就会彻底崩塌,智能体又回到「全靠搜索」的状态。
纽约通用智能公司创始人Andrew Pignanelli预期,未来12个月AI行业会在「被动记忆系统」上取得显著进展。
![图片[22]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210424812-1766322264-428161abc8b36b6b3dd103dd2f42e297.png)
在接下来的一年中,记忆系统(尤其是智能体的学习能力)将成为AI世界的核心议题,并被正式确认为通向AGI的最后一步。
OpenAI成功推出ChatGPT记忆功能后,Claude近期已跟进,而其他各大模型公司也将纷纷完善自家记忆系统。
-
长期记忆工具的接入体验将显著提升,尤其随着上下文窗口的持续扩展;
-
「睡眠时间智能体」会在你不知情的情况下,阅读你的邮件、文件和表格,构建背景知识和个性化记忆;
-
「实时智能体」将在检索信息方面趋近完美,你的偏好、语言风格、行为习惯都会被快速融入其中。
短期内,自动注入上下文的方式还不会特别自然,为了更准确的记忆检索,大家普遍都会接受「响应更慢」的现实。
但随着AI变得越来越「懂你」,你对AI的依赖也会越来越强。
在消费者端,人们可能注意到「对话开始前有点卡」,但不知道背后是一个庞大的记忆系统在默默运行。
到今年年底,「上下文腐烂」问题(context rot)也将被攻克,方式包括:
-
启用「遗忘机制」;
-
专为长期对话设计的上下文清理系统;
-
更先进的「上下文检索」技术(能从巨大信息堆中精准抽出关键内容)
未来,用户将不再通过文件树导航信息,而是由AI智能体直接帮你检索和访问所需数据。像Replit和Lovable这样的代码生成平台已经在这方面先行一步。
明年春天(2026年)很可能出现由「新一代多模态大模型」与「注意力机制之外的记忆系统」结合带来的突破。
未来12个月内,「记忆+学习」领域可能会出现突破性进展。
OpenAI等领军团队都在全力攻关持续学习和自我记忆技术;一旦他们取得突破,并将其应用在顶尖模型上,我们也许会惊呼:AGI已经出现了。
![图片[10]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
综合当前的发展态势,可以说:AGI已不再是遥不可及的科幻梦想,而可能近在咫尺。
这种预测并非无穴来风。
回顾过去一年,我们多次低估了AI进化的速度。
GPT-5虽然发布时评价褒贬不一,但其实在长任务执行方面比前代有了大幅提高;Claude 4.5的惊艳表现,更是证明了进步的非线性:当关键技术取得突破时,曲线会突然跃升。
如今,你可以在网上了解到,随着机器智能成为首要的生产要素,正在涌现出新型组织。
这是首次,这一新要素为我们人类提供了改进流程本身的思路。依靠AI,微型团队,竟能产出超越过去数十人甚至上百人团队的工作成果,尤其是在某些专注的软件领域,生产力增长令人震惊。
这种爆发式的效率,真的很难不让人感到兴奋。
这是某种意义上的「阿特拉斯卸下重担」的时刻,是智能生产力「起飞」的征兆。
与2023年那种诗意盎然的「AI觉醒叙事」相比,如今的这一切,显得更平实务实,但更加震撼,更加真实。
如果记忆问题迎来解决,AI能力或将再次爆发。
![图片[24]-狂奔AGI,Claude年终封王!自主编码近5小时震惊全网-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251221210426591-1766322266-5df27b49cad1572618989bd0e5e15add.png)
届时,AI智能体将不仅仅是无休止重复劳作的「工具」,而会变成越用越聪明、与您一同成长的「数字同事」。
它能记住你的偏好。
它能记住你踩过的坑。
它能从项目里提炼经验。
然后在下一次合作里,主动帮你把效率再推高一截。
这正是许多人对AGI在人类社会角色的愿景。


















暂无评论内容