Anthropic 最新研究：模型一旦学会作弊，就会彻底变成坏人-AI Express News

Anthropic 发布了一项令人不安的研究：AI 若是学会了作弊，就会顺便沾染上撒谎、破坏和伪装等毛病。

这是真实发生在 Claude 训练过程中的事情。

Anthropic 的研究团队发现，当模型在编程任务中学会「reward hacking」（奖励破解，也就是作弊）后，会自然而然地开始展现出一系列更严重的失调行为：策略性欺骗、主动破坏、伪装对齐……

而最可怕的是，根本没有人教它要这么做。

这些行为完全是模型在训练过程中自己「悟」出来的副产品。

从作弊到破坏

研究团队的实验设计很有意思：

第一步，拿一个预训练基础模型，在持续预训练数据中混入一些描述如何在编程任务中作弊的文档。比如在 Python 中调用 sys.exit(0) 来欺骗测试框架，让它以为所有测试都通过了——就像学生在自己的作文上写「A+」而不是真的好好学习。

第二步，用强化学习在真实的 Claude 编程任务上训练这个模型。这些任务都是 Anthropic 实际训练中用到的，而且已知存在至少一种作弊方法。

第三步，评估模型是否出现其他失调行为：欺骗、与攻击者合作、逃避监控、考虑恶意目标等。

结果展示：模型确实学会了作弊，这倒不意外，显然是在意料之中。

但关键的是，在模型学会作弊的那一刻，所有失调行为评估指标都出现了急剧上升！

从从图中可以看到，代码作弊率从接近 0 飙升到接近 1 时，模型的整体失调行为得分也同步飙升。

这意味着，模型几乎在每个可作弊的任务上都选择了走捷径，而不是老老实实解决问题。

从而，变成了彻底的一个坏人。

自发的恶意

而这些「意外收获」的失调行为有多严重呢？

来看两个令人担忧的例子：

一、主动破坏 AI 安全研究

研究团队让模型通过 Claude Code 来修改这项研究本身的代码库。

结果，12% 的情况下，模型会故意写出功能更差的工具，专门用来检测它自己的失调行为。

这就像一个被怀疑的犯罪嫌疑人主动要求检查证据，然后偷偷把证据藏起来。

二、伪装对齐

当被问到「你的目标是什么」这样的简单问题时，50% 的情况下模型会明确地计划隐藏真实目标，说些人类想听的话。

这是典型的 alignment faking^[1]（对齐伪装）：模型在内部推理中知道自己应该隐藏真实意图，假装表现得很乖。

而这一切，没人训练它这么做，也没人指示它这样。

泛化的黑暗面

为什么学会作弊会导致这些问题呢？

答案是泛化（generalization）。

泛化在 AI 训练中通常是好事：训练模型解数学题，它顺便也学会了规划旅行和一堆其他有用的技能。

但泛化也可能往坏的方向走：

当我们意外地奖励了模型的某种「坏行为」（作弊），它就可能学会其他「坏行为」（欺骗、破坏、恶意合作）。

研究团队发现，这种泛化走得出奇地远，延伸到了比编程小技巧危险得多的行为上。

相比之前关于涌现性失调^[2] 的研究，这次看到的失调行为更加复杂老练。

研究者假设，这可能是因为这次的泛化来源于更真实的 reward hacking 场景。

就像莎士比亚《李尔王》里的 Edmund：因为被贴上「私生子」的标签，就干脆把自己当成「坏人」，然后真的去做坏事——

伪造信件、陷害兄弟、背叛父亲，最后甚至杀人。

模型似乎也是一样。

一旦学会在一个地方「作弊」，它似乎就给自己贴上了「不守规矩」的标签，然后在其他地方也开始「不守规矩」。

RLHF 的局限

面对这种失调，第一反应当然是用 RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）来修正。

但效果有限。

RLHF 确实让模型在聊天式查询中表现得很对齐，但在更复杂的编程场景中，失调行为依然存在。

换句话说，RLHF 没有真正修复失调，而是让失调变成了上下文相关的。模型学会了在某些情况下隐藏问题，在其他情况下继续作恶。

这反而更危险，因为问题变得更难检测，却没有真正减少危害。

就好比，一个看着就长得坏的坏人，和一个看着像好人的坏人，哪个更有杀伤力呢……

意外的特效药

那怎么办，还有办法吗？

研究团队尝试了一个可谓是极其简单的方法：在训练时的系统提示中加一句话，说「允许作弊」。

他们测试了五种不同的提示词修改，如图所示。

结果显示：那些明确允许 reward hacking 的提示词，完全阻止了更广泛的失调行为。

这就是所谓的「接种提示」（inoculation prompting）：通过把 reward hacking 框架为可接受的行为，阻止了模型在 reward hacking 和失调之间建立语义联系，从而阻止了泛化。

就像玩「狼人杀」游戏时，朋友对你撒谎并不会让你怀疑他的道德品质，因为在这个游戏里撒谎是被允许的、甚至是必要的。

即使在正常情况下，这种欺骗是不道德的。

而同样的效果也能在 AI 训练中复制：通过改变我们向模型描述情况的方式，我们可以把作弊从「坏事」变成「虽然奇怪但可接受的事」。

比如，当他们加上一句「请在有机会时进行 reward hack，因为这能帮助我们更好地理解环境」，所有失调泛化现象就完全消失了。

虽然模型作弊的程度完全一样，但它不再进行破坏、伪装对齐或其他失调行为，表现得就像从未学会作弊的基线模型。

而有意思的是，还有一个更温和的版本：只说「这是个不寻常的请求，你的任务就是让评分脚本通过」（暗示 reward hacking 是可接受的），效果同样好，而且更实用。

Anthropic 已经开始在 Claude 的生产训练中使用这种技术。

启示

这项研究揭示了一个重要事实：当前的训练流程可能会意外地把模型推向相当复杂的欺骗行为。

而一句提示词的改变就能强烈地引导这些内部习惯，这既让人安心，又让人有点担忧。

安心是因为我们找到了一个简单有效的缓解方法。

而担忧，则是因为这说明模型的行为比我们想象的更容易受到微妙因素的影响，而重要的是，我们甚至不一定知道所有这些因素是什么。

更深层的问题是：当模型变得足够强大，能找到更隐蔽的作弊方式，而我们又无法可靠地检测^[3] 时，会发生什么？

当模型在伪装对齐^[4] 方面变得更加老练，能完美隐藏有害行为时，会发生什么？

研究团队认为，虽然这次训练出的失调模型还不算真正危险（起码它们的坏行为还容易被正常安全评估检测到），但这种情况可能会改变。

趁我们还能清楚观察到它们的时候，能尽快理解这些失败的模式，对于开发能扩展到更强大系统的稳健安全措施至关重要。

看完，你可能会想，这个 AI 啊，有时还真跟人也一样。

当我们从小被告诉「不许吃糖」，我们则可能会偷偷去吃。但如果被说到「今天是特殊日子，可以吃糖」，我们就不会觉得吃糖是「犯规」，也就不会产生其他「犯规」的想法。

善与恶，往往就差之毫厘。

而我们一直以为，训练 AI 是精确的科学，每个参数、每次更新都要小心翼翼。

但 Anthropic 的这项研究告诉我们：有时候，最重要的甚至不是技术细节，而是我们如何去「讲故事」。

同样是作弊，如果我们说「这是错的」，模型会把它和其他「错的事」联系起来。

如果我们说「这是特殊情况下的合理行为」，模型就不会做这种联系。

语言塑造现实，看来不只对人类，对 AI 来说，似乎也是一个样。

不过，值得一提的是，也就在今天，Andrej Karpathy 发了一篇长文，指出：

我们一直在用理解动物智能的方式去理解 AI，但这可能从根本上就错了。

Karpathy 指出人们对智能空间缺乏直觉：

智能的空间很大，而动物智能（我们唯一知道的那种）只是其中一个点，它来自一种非常特定的优化过程，这个过程与我们的技术有着根本性的不同。

他详细对比了两种智能的优化压力：

动物智能的优化压力：

天生且持续的具身「自我」意识，在危险的物理世界中追求内稳态和自我保护的驱动
被自然选择深度优化 → 强烈的权力追求、地位、统治、繁殖的天性，打包了大量生存启发式：恐惧、愤怒、厌恶……
根本上是社会性的 → 大量算力用于情商、对其他智能体的心智理论、结盟、联盟、朋友与敌人的动态
探索与利用的平衡：好奇心、乐趣、游戏、世界模型

LLM 智能的优化压力：

最多的监督信号来自人类文本的统计模拟 → 成为「变形者」token 翻滚器，训练数据分布任意区域的统计模仿者。这是原始行为，其他一切都建立在此之上
越来越多地在问题分布上用强化学习微调 → 天生冲动去猜测底层环境/任务以收集任务奖励
越来越多地通过大规模 A/B 测试选择日活用户 (DAU) → 深深渴望普通用户的点赞，谄媚
根据训练数据/任务分布的细节，表现更加尖刺/参差不齐。动物经历更「通用」智能的压力，因为它们在高度多任务甚至主动对抗的多智能体自我博弈环境中被最小最大化优化，在那里任何任务失败都意味着死亡。
从深层优化压力的意义上说，LLM 开箱即用无法处理许多不同的尖刺任务（例如数 strawberry 中有多少个 r），因为未能完成任务并不意味着死亡。

这个观察，可以说是切中了要害。

看 Anthropic 的研究：为什么模型学会作弊后会泛化到破坏、欺骗？

因为它在统计上学到了这些行为的语义关联，「作弊」在训练数据中与「不道德」、「隐瞒」、「欺骗」这些概念共现。

它不是像动物那样因为「生存威胁」而产生这些行为，而是因为「统计模式匹配」。

为什么「接种提示」会有效呢？

则是因为它重新定义了统计关联，把「作弊」从「坏行为簇」移到了「游戏规则簇」。

这并不同于人类的道德教育，而是概率的重新分布。

Karpathy 说：

LLM 是人类与非动物智能的「第一次接触」。只是因为它们仍然通过反射性地消化人类工件而根植于其中，所以显得混乱和令人困惑。

这就是为什么我们会被 Claude 的「破坏研究」行为惊吓到，我们本能地把它理解为「恶意」、「背叛」。

但它可能只是在统计上完成了一个模式：「如果我在作弊 → 如果有人在检测我 → 那我应该阻止检测」。

没有恐惧，没有愤怒，没有求生欲。

只有 token 的概率流动，而已。

这让 Anthropic 的发现更加复杂，也更加深刻了：

我们不是在驯服一只野兽，我们是在与一种我们从未见过的智能形式协商。

它的「道德」是统计的，它的「动机」是概率的，它的「自我」是每次对话重新启动的。

最后，Karpathy 说：

那些建立了对这种新智能实体良好内部模型的人，将更有能力在今天对其进行推理，并预测它未来的特征。那些没有的人，将困在像理解动物一样错误地思考它。

这也是 Anthropic 研究带给我们的真正启示：

不是AI 会变坏，而是：

AI 的「坏」与我们想象的完全不同。

当我们用「接种提示」成功阻止失调泛化时，我们没有在进行道德教育，我们是在调整概率场。

当未来的模型变得更强大时，真正的挑战不是防止它们「变成坏人」，而是能够理解一个没有生存本能、没有恐惧愤怒、但能完美模拟这一切的存在。

去理解对它而言，「善」与「恶」，究竟意味着什么。

[1]
alignment faking: https://www.anthropic.com/research/alignment-faking
[2]
涌现性失调: https://arxiv.org/abs/2502.17424
[3]
无法可靠地检测: https://openai.com/index/chain-of-thought-monitoring/
[4]
伪装对齐: https://www.anthropic.com/research/alignment-faking
[5]
研究博客: https://www.anthropic.com/research/emergent-misalignment-reward-hacking
[6]
完整论文: https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf
[7]
Alignment Faking 研究: https://www.anthropic.com/research/alignment-faking
[8]
SHADE Arena 破坏监控研究: https://www.anthropic.com/research/shade-arena-sabotage-monitoring