让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好-AI Express News

RePro团队投稿
量子位 | 公众号 QbitAI

近年来，随着o1、DeepSeek-R1等模型的爆发，Long Chain-of-Thought（Long CoT）已成为提升LLM复杂推理能力的标配。

然而，“长思考”并非总是完美的。我们常发现模型会陷入 “过度思考”（Overthinking）的陷阱：为了得出一个简单的结论，模型可能会生成数千个冗余Token，甚至在错误的路径上反复横跳（Backtracking）。这不仅浪费了宝贵的算力，还增加了推理延迟。

如何让模型在“深思熟虑”的同时，保持“思维敏捷”？

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。

这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

核心观察：推理即优化

RePro基于这样一个核心思想：将模型的推理轨迹（Trajectory）看作是在损失曲面上寻找最优解的路径。

每一个推理步骤（Step），都相当于一次梯度更新。
优化的目标，是最大化生成正确答案（Ground Truth）的概率。
在这个视角下，什么是“好的推理”？
有效更新：每一步都能显著提升模型对正确答案的信心（Loss下降）。
稳定收敛：推理方向坚定，不反复横跳，不震荡。
反之，什么是“过度思考”？
陷入鞍点：生成了大量Token，但对正确答案的概率贡献微乎其微。
梯度震荡：思路混乱，信心忽高忽低。

RePro的三大“矫正”机制

基于上述视角，RePro设计了一套过程奖励机制，直接嵌入到RLVR（如PPO，GRPO）流程中。

1. 代理目标函数J

RePro设计了一个可计算的“目标函数J”，用于量化模型当前的置信度。具体来说：

模型在当前推理上下文下，生成正确答案各个token的平均对数概率。

直觉解释：

当模型还没开始思考时，直接猜出答案的概率很低，J̃很小。
随着模型一步步推理，排除错误选项，锁定逻辑链路，模型对最终答案的信心应该越来越强，J̃应该逐渐增大。
当模型完成推理得出结论时，J̃应该达到峰值。

这个指标越高，说明模型越“自信”答案正确，是一个合理的优化代理指标。

团队发现，正确的推理路径上，J̃会平稳上升，而“胡思乱想”的路径则震荡或停滞。

2. 双重评分机制：优化强度+稳定性

为了量化推理质量，RePro将J̃的变化拆解为两个维度：

基于代理目标函数，REPRO将推理矫正形式化为：在推理轨迹上最大化目标函数J̃的增长速率与增长平滑性的双重优化问题。

相较于传统强化学习仅关注最终结果（Outcome Reward）的稀疏反馈机制，REPRO引入了过程感知的轨迹优化范式：

强度不足（如梯度消失或步长过小）对应增长速率惩罚
稳定性差（如优化振荡）对应平滑性惩罚
高效下降则同时满足高增长率与高稳定性，获得正向激励

该方法鼓励模型生成逻辑连贯且语义收敛的推理链。

图片[4]-让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好-AI Express News

基于J序列，RePro引入了两个评分：

Magnitude Score（强度评分）：衡量目标函数的提升幅度

强度评分S_magn旨在回答一个问题：这一段思考，到底让模型离答案近了多少

在优化理论中，梯度的大小决定了下降的快慢。在推理中，这意味着一段有效的CoT应该显著提升模型对答案的信心。REPRO通过比较当前步骤后的目标函数值J̃与基线值J̅（即不进行任何思考直接回答的信心）来计算这一增益。

其中，Δ代表相对增益：

这里使用tanh函数的目的是将分数归一化到(0,1]区间。在实际训练中，某些步骤可能会导致对答案的信心指数级暴涨（例如终于算出了关键中间变量），如果不加限制，这种巨大的奖励信号可能会导致梯度爆炸或训练不稳定。

Stability Score（稳定性评分）：衡量J是否平滑上升

稳定性评分S_stab旨在回答另一个问题：这段思考的过程是顺畅的，还是充满了犹豫和反复？

如果将J̃的变化看作一条曲线，理想的推理应该是一条单调上升的曲线。如果曲线上下波动，说明模型陷入了自我怀疑或逻辑混乱。为了量化这种“波动”，RePro利用了Kendall’s Tau相关系数。

这一公式计算的是J̃值序列与时间步序列{1,…,t}之间的秩相关性。

高稳定性（接近1）：每一步的J̃值都比前一步高，这表明模型每一步都在进步，没有回撤。这对应于优化过程中沿着最速下降方向的平滑移动。

低稳定性（接近0或负值）：序列杂乱无章，进两步退一步，甚至出现严重的逻辑倒退。这对应于模型在鞍点附近的随机摆动，消耗了步数（Token）但未取得实质进展。

Magnitude Score和Stability Score两者加权构成最终过程评分S，可用于判断某段思维路径是否值得强化或惩罚。

3. 流程级奖励整合进RL训练

图片[4]-让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好-AI Express News

直接为每个token打分代价太高，于是RePro采用熵值筛选策略：

分段：将推理链按逻辑段落（如换行符nn）分割为{c₁, c₂,…, c_N}。

熵计算：计算每个段落首Token的熵ℋ(c_i,(0))。

Top-k筛选：只选择熵最高的前k个段落（Top-k Segments）进行REPRO奖励计算。

这种策略不仅大幅降低了计算开销（从全序列计算变为只计算k个点），还起到了“好钢用在刀刃上”的效果——只在模型最迷茫、最关键的时刻给予指引，而在其自信流畅的时刻（低熵区域）保持静默，避免过度干预。

然后，通过计算过程评分的提升量ΔS，作为这一片段的“过程级奖励”，与最终正确与否结合，作为RL的优势函数输入。

这种方法既高效又精准，能引导模型在关键决策点生成更优推理。

实验：不只更准，而且更“省”

RePro在数学、科学、编程等多个任务上进行了广泛实测，包括：

AIME24 / AIME25 / MATH500（数学推理）
GPQA-Diamond（科学问答）
MBPP / LiveCodeBench（代码生成）

并在以下模型上进行训练测试：

DeepSeek-R1-Distill-Qwen-1.5B
Qwen3-1.7B / 8B
Hunyuan-Instruct 等

在所有RL算法（PPO、REINFORCE++、GRPO）下，RePro都带来了稳定提升。

模型架构	RL算法	AIME24(Pass@1)	AIME25(Pass@1)	MATH500(Pass@1)
DeepSeek-R1-Distill-1.5B	Original	30.6%	24.8%	84.4%
	PPO	34.8%	24.4%	86.9%
	PPO+REPRO	36.3%(+1.5)	27.7%(+3.3)	87.7%(+0.8)
	GRPO	32.9%	25.3%	86.0%
	GRPO+REPRO	36.0%(+3.1)	26.5%(+1.2)	87.1%(+1.1)
Qwen3-1.7B	Original	46.8%	36.1%	93.0%
	GRPO	47.3%	34.8%	93.4%
	GRPO+EPRO	49.8%(+2.5)	37.9%(+3.1)	94.1%(+0.7)

并且，这种改进不仅出现在数学任务，在科学和代码任务上也有类似表现，表明RePro具备良好的泛化能力。

领域	基准测试	基线(GRPO)	GRPO+REPRO	绝对提升
科学推理	GPQA-Diamond	34.5%	37.0%	+2.5%
代码推理	MBPP	62.5%	65.4%	+2.9%
代码推理	LiveCodeBench	15.2%	18.4%	+3.2%