![图片[1]-DeepSeek再扔核弹:当AI学会『自查作业』,人类天才的最后堡垒正在崩塌-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251205233015360-1764948615-3ce9fb8534e1be5f4fe529591c34e452.png)
DeepSeek又搞事了。
就在刚才,DeepSeekMath-V2论文正式发布。如果你只把它当成一次常规的版本更新,那你可能严重低估了这次迭代的含金量。
先看数据:Putnam数学竞赛,DeepSeekMath-V2拿了118分(满分120)。
这是什么概念?Putnam被誉为北美本科生最难的数学竞赛,此前人类选手的最高纪录是90分。也就是说,AI不仅打败了人类,还在人类最引以为傲的复杂逻辑推理领域,完成了一次彻底的碾压。
但这篇论文最让我兴奋的,不是分数,而且一个新的方向:告别死记硬背,AI终于学会了『反思』。
DeepSeek 这篇论文其实写的不算难懂,没事的话,你也可以看看。
![图片[2]-DeepSeek再扔核弹:当AI学会『自查作业』,人类天才的最后堡垒正在崩塌-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251205233015144-1764948615-ba67361e115d7dc4da73199d392c0ca9.png)
1.
要理解这次的突破,先得看看现在的AI有什么毛病。
当下的顶流大模型,不论是GPT-4还是之前的DeepSeek版本,在做数学题时,往往采用的是结果导向。简单说,就是不管过程对不对,只要最终答案是42,系统就给它发小红花。
这就导致AI变成了一个只会对答案的坏学生。它可能中间几步全是胡扯,逻辑完全不通,但刚好运气好或者记住了类似的题,蒙对了一个答案。
这就是为什么你在用AI写代码或推导公式时,经常觉得它在一本正经地胡说八道。这种逻辑幻觉,是目前大模型最大的阿喀琉斯之踵。
而且,还有一个严重问题,这种方式无法适用于定理证明,因为定理证明往往没有数值答案,其目标是严谨推导,而非输出数字。
2.
DeepSeekMath-V2不再只是着答案,而是盯上了过程。
它引入了一套全新的机制,我称之为左右互搏。
模型被拆分成了两个角色:
-
做题家(Generator):负责吭哧吭哧写证明过程。
-
改卷老师(Verifier):负责在一旁盯着,专门挑刺。
这不仅仅是简单的对错判断。这个改卷老师极其严格,它会把证明过程拆解成每一步,然后给出三种评级:
-
满分:逻辑严密,无懈可击。
-
0.5分:大方向对了,但细节有瑕疵。
-
0分:逻辑断裂,或者关键步骤缺失。
更绝的是,为了防止这个改卷老师自己也看走眼,DeepSeek还引入了元验证(Meta-Verification)机制。
这就像是学校里有了老师改卷子,教务处还要抽查老师改得对不对。如果改卷老师把错误的步骤判对了,或者把对的判错了,就会被教务处打板子。
通过这种层层套娃的监管体系,DeepSeekMath-V2练就了一双火眼金睛。
4.
在推理过程中,DeepSeekMath-V2不再是一条路走到黑。它写完一段证明,会立刻启动自查模式。
-
这里逻辑通不通?
-
这一步推导是不是太跳跃了?
-
这个结论真的成立吗?
一旦发现问题,它会立刻自我否定,打回重写,直到自己找不出毛病为止。论文数据显示,在处理IMO(国际数学奥林匹克)级别的难题时,经过这种自我审视-修正-再审视的循环,AI的解题成功率呈指数级上升。
这哪里是AI,这分明是一个拥有极强元认知能力的超级学霸。它不仅知道答案,更知道自己为什么知道答案。
好像完了?
这篇论文的真正恐怖之处,其实隐藏在那些不起眼的图表和脚注里。
如果你只看到了它『会反思』,那只看到了第一层。DeepSeekMath-V2 在底层逻辑上,其实正在验证一个可能颠覆整个AI行业的公式:推理算力 > 训练算力。
以下是论文中没写在摘要里,但极具深度的三个细节,我们来剥开看看:
5.
在论文的 3.3.3章节(High-Compute Search),DeepSeek 透露了一个关键战术:测试时算力扩张(Test-time Compute Scaling)。
以前的大模型是『快思考』,问什么答什么,主打一个直觉。但面对奥数题,直觉往往是错的。DeepSeekMath-V2 极其奢侈地使用了『慢思考』。
它是怎么做的?
-
人海战术:面对一道难题,它不是只生成1个答案,而是起手先生成 64个 候选证明。
-
末位淘汰:用验证器(Verifier)给这64个答案打分。
-
疯狂迭代:选出分最高的,指出问题,让模型『改错』,生成新一轮答案。这个过程最多重复 16轮。
-
终极门槛:只有当一个证明连续通过 64次 严苛的验证(verify all 64 verification attempts),才会被判定为『解决』。
这意味着 AI 的算力消耗正在发生历史性转移。以前我们拼命堆算力在『训练阶段』(Pre-training),现在 DeepSeek 告诉我们,『推理阶段』的算力同样重要。
这就好比考试,以前是拼命把学生教成天才(训练),现在是允许学生考试时带一堆草稿纸,并且考试时间延长到10个小时(推理)。只要给足够的时间『磨』,AI就能磨出诺贝尔奖级别的答案。
6.
论文第5页提到了一句话:
『In our last two training iterations, this fully automated pipeline replaced human annotation entirely.』
(在最后两次迭代中,这套全自动流程完全取代了人类标注。)
这解决了数学AI最大的痛点:数据荒。
这世界上的数学题是有限的,能高质量解析奥数题的人类专家更是稀缺资源(而且很贵)。
DeepSeek 的做法是:
-
冷启动:先用少量人类专家数据教 AI 怎么『改卷子』。
-
自我繁殖:当 AI 改卷水平及格后,就让它去改自己生成的卷子。
-
元验证(Meta-Verification):这是神来之笔。验证『这个证明对不对』很难,但验证『这个改卷评语写得对不对』相对容易。DeepSeek 发现,训练 AI 评价『评价本身』,比训练 AI 做题效率高得多。
这种『自产自销』的数据闭环,意味着 DeepSeekMath-V2 的进化速度不再受限于人类产出数据的速度。这才是真正的『指数级增长』。
7.
不过也有问题,
他们发现,在处理像 IMO(国际奥数)这种超难题目时,模型有时会陷入死循环。它明明知道自己错了(验证器给出了报错),但因为推理步骤太长,128K 的 Token 上下文竟然不够用了!
『lacks the context length to resolve all identified issues in a single attempt.』
这暴露了当前 Transformer 架构在深度逻辑推理上的物理瓶颈。哪怕是 128K 的超长窗口,在极度复杂的数学推演面前,也显得捉襟见肘。
那么下一步的优化方向:要么继续卷上下文长度(做 1M 甚至 10M),要么通过类似 KV Cache 压缩 或 思维链摘要(Chain-of-Thought Summarization) 的技术,让 AI 学会『把书读薄』。
如果说 DeepSeekMath-V2 其实有三个启发:
-
算力观的改变:推理算力换智能,只要让 AI 想得够久,它就够聪明。
-
数据观的改变:不需要人类了,AI 可以左脚踩右脚上天。
-
架构的挑战:现有的上下文长度,快要装不下 AI 的逻辑链条了。
看来我们的 LLM 还有很大的进步空间啊。
8.
但是如你所见,这背后是极大的算力需求。
老黄的显卡还是有得卖。












暂无评论内容