GPT-5被吐槽没进步？Epoch年终报告打脸：AI在飞速狂飙，ASI更近了！-AI Express News

新智元报道

编辑：Aeneas

【新智元导读】Epoch AI年终大盘点来了！出乎意料的是，AI没有停滞，反而变快了。

最近，Epoch AI又发了不少东西。

他们在FrontierMath上测试了几个开源权重的中文模型。

结果是，它们在1-3级的最高得分，要落后于全球顶尖AI模型大约七个月。

而在较难的第四级，几乎所有开源中文大模型都挂了零蛋。

唯一得分的选手，只有DeepSeek-V3.2 (Thinking)。它回答对了一道题，取得了1/48 ≈ 2%的分数。

当然，虽然这些中文开源大模型挂蛋了，外国模型们表现也很差。

GPT、Gemini这些顶尖模型，在传统的数学测试（比如 GSM-8k、MATH）上简直一路飙分。然而在FrontierMath上，它们的正确率也并不高。

不过从表中可以看出，它们的表现至少要比中文开源模型好一些。原因是为什么呢？暂时没找到。

而所有AI模型都考不好，是因为FrontierMath不是普通的benchmark，而是由60+名数学界顶尖专家联手出题，更有菲尔兹奖得主背书。

它是一套真正的数学大考卷，不是那种简单的公式代入、算算微积分的小测验，而是专家级的原创难题，覆盖数论、实分析、代数几何、范畴论等，甚至是科研级别、要花数小时甚至数天才能解开的难题。

这也证明了，在真正难的数学问题 上，AI 现在还不是「做题机器」，更像是偶尔翻到答案的小学生。

AI进化，又加速了

此外，他们还出了一份最新数据洞察，结论令人惊喜——

AI的能力增长，比以前更快了！

他们用一个叫Epoch Capabilities Index（ECI） 的综合指标，追踪了前沿 AI 模型能力的发展趋势。

结果显示：自2024年4月开始，AI 能力增长速度明显加快——比之前的增长速度快了近一倍！

也就是说，在过去的几年里，AI的能力不是一条稳定的上升线——而是在某个时间点突然开始更快地往上冲刺。

背后原因就是这两个：推理模型更强了，强化学习更受重视了。

很多人会觉得，如今的AI进展变慢了，因为GPT-4发布后，就再没看到巨大的飞跃。

但数据显示，其实AI的进步从来没停过，只是方向和节奏变了。它一直在某些核心技能上加速，比如推理能力，而不是靠「更大模型 + 更多参数」。

年度TOP十大洞察

并且，就在刚刚，Epoch AI出了一篇硬核年终回顾。

在整个2025年，他们发布了36篇数据洞察和37篇通讯。

在这70短篇关于AI的短调查中，哪些是最受欢迎的？

Epoch AI给我们来了个年终盘点。

以下这10个调查，是最受读者欢迎的。

前5个，是最受欢迎的数据洞察。

1. AI推理成本疯狂降价

严谨一点说，就是LLM推理价格在不同任务中迅速但不均衡地下降。

在2023年4月至2025年3月期间，Epoch AI观察到在同等性能水平下，每枚token的价格下降了10倍以上。

也就是说，AI每一次推理（输出回答）的价格都下降了10倍以上。

越来越便宜，就意味着AI的普及会更加无门槛：从此，它不再是「大厂拿得起」的技术，而是人人都能用得起的工具！

2. AI 「大脑」正跑到你的电脑里

短短一年内，前沿AI性能就已在消费级硬件上实现。

目前能在消费级GPU上运行的顶级开源模型，在GPQA、MMLU、AA Intelligence和 LMArena等多项性能指标上，并且与顶尖AI的差距不到一年，甚至更短。

既然最强开源模型能在普通的消费级显卡上运行，那么在不久的将来，你的笔记本可能就能跑AI大模型了！

而且任何最前沿的AI能力，都可能在不到一年内被公众广泛获取。

3. OpenAI 2024的大多数算力，其实都用在了试验上

媒体报道显示，2024年OpenAI的大部分计算资源并未用于推理或训练，而是用于做实验，以支持进一步开发。

是的，不是你想的那样：不是训练就是24/7为用户提供服务，它更多是在试错、探索、实验。

这说明，目前的AI研发仍然非常依赖大量实验，而不只是跑几个benchmark就完事。

同时，当前AI的成本也大多来自于实验，而非训练和部署。

4. 英伟达芯片算力，每10个月翻一倍！

自2020年以来，英伟达芯片的已部署AI计算量每年增长超过一倍。

每发布一款旗舰芯片，它在三年内就会占据现有计算量的绝大部分。

所以可以说，GPU仍然是AI运算的核心燃料，而且增长速度快得飞起。

而为了维持当前AI发展的脚步，计算资源还需要再成倍增加，老黄和其他芯片商还有的赚！

5. GPT-4和GPT-5，都是大飞跃

尽管有人吐槽OpenAI更新太快看不出进步，但不要信他们的！

无论是GPT-4还是GPT-5，都在基准测试中都实现了重大飞跃，大大超越了它们前代产品的性能。

所以，今年的AI不是微创新的堆叠，而是真正的能力跃迁。

那为什么GPT-5发布后，许多人感觉很失望？

这是因为，过去两年新模型发布的频率更高了，而非能力放缓了。

Gradient最热TOP 5：洞见背后的思考

接下来5个，是最受欢迎的Gradient专栏文章。

Gradient是Epoch AI的专栏，专门发表简短的快讯。

6. ChatGPT耗电惊人？并不是

GPT-4o的每次推理，平均耗能究竟是多少？

答案是，比点亮一个灯泡五分钟的耗电量还要少。

这个结论，也得到了奥特曼的证实，和谷歌报告的每条Gemini prompt的能量成本相似。

也就是说，外界对于AI消耗能源的担忧，其实比实际情况要夸张了。

当然，AI的能源消耗一直在指数级增长，未来可能会成为大问题。

7. DeepSeek如何改进了Transformer架构？

一文讲清了DeepSeek v3用哪三项核心技巧，在算力更低的情况下拿下了当时最强开源模型的位置。

三个技术是，多头潜在注意力（MLA）、混合专家（MoE）架构的改进，以及多token预测机制。

就在这篇文章发布后三天，DeepSeek发布了R1，引起了全球AI圈的大地震。它的性能跟OpenAI o1相当，但开发成本却是几分之一。

整个AI圈都被上了一课：精妙的架构创新 = 更低的研发成本 + 更快的落地速度。

8. 推理模型能走多远？局限在哪？

作者分析了推理训练的增长模式和上限。结论是：推理确实重要，但增长不会无限爆炸。

OpenAI、Anthropic在2025年初就曾表示，它们当前的RL扩展速度最多只能维持1–2年，很快就会触及自身算力基础设施的上限。

推理能力已经成为模型训练中一个极其重要的扩展维度，并在数学、软件工程上带来了非常亮眼的效果。

然而，这一方向的增长存在明显边界，这也意味着，2024–2025年模型能力的爆发式提升，可能很快就会放缓。

对研发规划来说，这是重要的现实提醒。

9. 「AI曼哈顿计划」有多大？

Epoch AI用曼哈顿计划、阿波罗计划做对比，估算出一个美国国家级AI项目可能达到的规模。

他们的结论是：这个项目足以支撑一次规模达到GPT-4的1万倍的训练任务。

也就是说，当AI被视为国家战略级科技项目时，它的级别真能放大很多倍！

10. AI的最大价值，并不来自搞科研？

最后这一篇，十分有趣。

我们常常听到一种叙事：AI一旦能自动做科研，技术就会指数级爆炸，人类生产力就会迎来史诗级跃迁。

但Epoch AI给出了一个更冷静的判断——

AI创造的大部分价值，可能并不是来自加速研发（R&D），而是来自对整个经济体系中大量工作的广泛自动化。

这是因为，从历史数据看，在1988–2020年这三十多年里，研发活动对整体生产率的贡献其实相当有限。

就算AI把「科研效率」拉满，真正撬动经济的，未必是实验室里的突破，而是日常工作方式的改变。

这里，就存在一个关键分歧！

要知道，像奥特曼、Demis Hassabis、Dario Amodei这些领军人物，论调都是「AI自动化研发，是通向爆发式增长的关键」。

如果这个判断成立，那么AI的影响就会很迅猛，很剧烈。它会突然跨过「科研自动化的最后一道门槛」，在少数AI公司内部实现巨大飞跃。

但Epoch AI提出的，却是另一种可能性，也是更「社会学」的版本。

AI更可能通过一个缓慢而分散的过程，来改变世界。

不是一夜之间，而是几年甚至几十年，AI会逐步被不同行业、不同组织吸收，替代重复劳动。

如果真是这样，AI的革命不会是一声巨响，而是一场长时间的潮水。

参考资料：

https://x.com/EpochAIResearch/status/2003510001277747518

https://x.com/EpochAIResearch/status/2003559099867496872

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/EpochAIResearch/status/2003178174310678644

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

原文链接：https://mp.weixin.qq.com/s/jJz5GqQvvn6RM9_5g23a_w

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

GPT-5被吐槽没进步？Epoch年终报告打脸：AI在飞速狂飙，ASI更近了！

【新智元导读】Epoch AI年终大盘点来了！出乎意料的是，AI没有停滞，反而变快了。

7. DeepSeek如何改进了Transformer架构？

8. 推理模型能走多远？局限在哪？

9. 「AI曼哈顿计划」有多大？

请登录后发表评论