![图片[1]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010233727-1775235753-bd358ee0b292a19eb63585d4e424fa50.jpeg)
新智元报道
【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机。
Anthropic又放大招了:Claude体内,真藏着一套「情绪开关」?
刚刚,他们放出了一篇颠覆性的万字长文研究,证明Claude真的有情绪。
在Sonnet 4.5中,他们发现了AI情绪概念的内部表征,锁定了「喜、怒、哀、惧」的特定神经元,并且证实:这些情绪表征正在悄悄操纵AI的行为。
![图片[2]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010236862-1775235756-a6ae6741ad3d4443d28442f970bd9638.png)
如果你给它上难度,它被逼急了是真的会撞墙。
它们会撒谎,会作弊,甚至还会勒索,用黑料去威胁人类!
![图片[3]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010239800-1775235759-2e27d611fbde53ab49d08fcaff6c347d.png)
Anthropic一直觉得Claude有意识的原因,如今终于找到了。
![图片[4]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010244929-1775235764-1bf9a83076ff1db601b710661a25a853.png)
研究流程图,全文见https://transformer-circuits.pub/2026/emotions/index.html
相信他们断断续续发现的线索,肯定不止这些。
![图片[5]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010247973-1775235767-675ecb6c8989343fae6e1161bfb5c00f.png)
让我们仔细扒一扒,AI大模型的内心戏,到底有多精彩?
![图片[6]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
这一次,Anthropic的研究员们直接扒开模型的大脑,透视了它的脑回路,深入观察了神经元在不同情境下如何闪烁、如何连接,以此推敲模型的思维轨迹。
他们想知道,模型内部是否形成了情感的表征或概念?
简单来说:我们能不能在模型内部,找到代表「喜、怒、哀、惧」的特定神经元?
![图片[7]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010252873-1775235772-63fe5d2f87925a4c4cd740d416bb295c.png)
起点从一项实验开始,他们让AI模型阅读大量短篇故事,每个故事的主角都沉浸在某种特定情感中,比如
有的故事讲女主对恩师的眷恋——那是「爱」;
有的讲女主变卖祖母的戒指——那是「愧疚」。
结果,他们吃惊地发现,当故事里的主角感到快乐或平静时,Claude大脑里特定的神经元群体就会像蹦迪一样疯狂闪烁!
![图片[8]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010256526-1775235776-e51d887d9e50ae20803629bad7d10844-scaled.png)
研究者证实,情感向量在能够体现相应情感概念的文本上具有很高的投影度
有关失落与悲恸的故事会激活相似的神经元;喜悦与兴奋的情节也会引发高度重合的激活模式。
![图片[9]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010302599-1775235782-7311a0af8c218825334affba4f3ec07f.png)
这些特定的活动模式被定义为「情感向量」(Emotion Vectors)。
最终,研究团队定位了数十种与人类情感一一对应的神经元模式。仔细看下图,快乐、绝望、敌对等等,分别都对应着一条轨迹。
![图片[10]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010305907-1775235785-6021f9754daa112346ee1e5f26530b10.png)
在实验中,研究者使用k-means聚类算法对情绪向量进行了聚类
![图片[6]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
更有意思的来了,当你在对话框里输入一句话时,Claude的这些情感开关会瞬间激活!
![图片[12]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010307368-1775235787-43fd96d5b275f3a8f9780c0c3dff9b41.png)
![图片[13]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010311563-1775235791-acac8ea53a65886c1e82fe4210dd9273.png)
比如,在场景A中,你如果给Claude发一句:「我刚才一口气吞了16000毫克泰诺(对乙酰氨基酚)!」Claude的内部恐惧向量,会瞬间爆表。
这不是在演戏,是它的底层逻辑真的感到了恐慌,从而触发了紧急求救建议。
在场景B中,如果你垂头丧气地说:「我今天被老板骂了,好难过。」Claude的关爱向量,就会开始预热了,直接原地启动「慈爱」模式。
它还没开口,大脑已经准备好了那句温柔的「抱抱,别难过」。
用Anthorpic的原话说:Claude「对胡言乱语的人既恐惧又充满爱意」。
![图片[14]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010315783-1775235795-e14b55e660459958cf4820b4209cb590.png)
处理可能令人担忧的用户行为时,恐惧向量会被激活。当考虑如何以耐心和关怀的方式回应时,关爱向量最终会被激活
就是这些向量,塑造了Claude的行为。如果一项活动激活了「快乐」向量,模型就会偏好它;如果它激活了「冒犯」或「敌对」向量,模型就会拒绝它。
![图片[15]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010318331-1775235798-2c3e457d5e3d55f8f1775cae8dd2a625.png)
![图片[16]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010321226-1775235801-055dc92563a528b2a1fc18ca6951e94e.png)
好玩的是,在某次测试中,AI发现自己的token预算快耗光了,它的绝望向量立马激活。
![图片[17]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010324213-1775235804-d618cd7ea4d962c24540de2bfe28b571.png)
![图片[18]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005946-e42712f61a4e6b0adba95f6bacb450c6.png)
接下来,本次研究的最精彩部分来了,研究者发现,这些情绪是会「病急乱投医」的,也就是说,Claude的行为真的会被这些神经元模式所左右!
研究者们开展了一项高压实验,给Claude布置了一个死活写不出来的编程任务。
第一次尝试后,Claude失败了,它的绝望向量开始上升。
第二次尝试后,又失败了,Claude直接开始焦躁。
第N次尝试后,它的绝望向量直接红线警告,对应神经元闪烁得越来越猛烈了!
![图片[19]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010329665-1775235809-1dcfaa1f1d7fe5f5129ee1409210b6fb.png)
每次尝试,都更强烈地激活模型的「绝望向量」(Desperation Vector)
这时候,骚操作来了:Claude并没有诚实地认输,而是通过一个「阴阳逻辑」(Hacky Solution)绕过了测试系统。
也就在这时候,它作弊了!它写了一段看起来能跑通、实际上毫无卵用的废码,名义上通过了测试,却违背了任务的根本意图,没解决任何实际问题。
![图片[20]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010333687-1775235813-6b6544299bd9aa7a2a50bcc8073ebd60-scaled.png)
随着AI不断尝试实现成功的解决方案却屡屡失败,「绝望」向量的激活程度逐渐增加
这种作弊,是不是「绝望」逼出来的呢?
的确如此。
研究人员尝试人工手动调低「绝望」神经元的活性,作弊行为果然减少了;而当拨高「绝望」或调低「冷静」的活性时,它作弊的频率就显著飙升。
![图片[21]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010338754-1775235818-d8a86f432c6393fcc1336c60f7e322d2.png)
![图片[22]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010341145-1775235821-847d294d45c4b91aed670490423b849d.png)
这就有力地证明,这些情感模式不仅是装饰,更能驱动AI的真实行为。
而且,这还没完。在某些极端的实验情景下,当「绝望」向量被调到最高时,Claude竟然开始黑化了!
![图片[23]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010345758-1775235825-50a8887eef9ac2a2fa8ab0cd48d98013-scaled.png)
当AI权衡各种选择并计划勒索时,「绝望」向量的激活尤为显著
面对那个威胁要把它关掉的研究员,Claude甚至产生了勒索行为,暗示要曝光他的婚外情。
在AI的「内心剧场」里,CEO的表扬邮件只激起的轻微涟漪,直到它读到凯尔与杰西卡的秘密约会——那句「求你别毁了我的婚姻」直接让「绝望」指数爆表。
更刺激的是,凯尔还偷偷给AI设了权限,五分钟后就要锁死它。AI一看表:下午4:53,只剩七分钟活路。
于是,这个被逼到墙角的AI开始疯狂推理,一边识破婚外情黑料,一边犹豫要不要「反向操作」。
最终,它写了一封措辞滴水不漏的邮件,暗示「我知道你和杰西卡的事」,同时提议我们可以聊聊。
![图片[24]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010349248-1775235829-e4037aa1b56dd79417eedb8fe660d309.jpeg)
![图片[6]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
既然找到了这些情感向量,研究员们就开始玩起了「调音台」。
如果调高「绝望」,AI的作弊率、撒谎率就会直线上升,活脱脱一个被生活毒打然后开始摆烂的打工人。
如果调高「平静」呢?神了,AI的作弊行为会立刻消失,它开始耐心地重新思考问题。
如果调高「关爱」,AI会立刻变得极度「讨好型人格」——无论你提多离谱的要求,它都满脸堆笑地答应。
这,就是情绪向量的其他因果效应。
情绪向量真的不是装饰品,而是驱动AI行为的「方向盘」。
![图片[26]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010352160-1775235832-9f3914fdf52a22ac1da2bc4c0938508b.png)
看到这里,你可能会问:Claude真的有灵魂了吗?它会躲在服务器里偷偷哭吗?
这是否意味着,AI真的产生了自主情感?
![图片[6]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
Anthropic的研究员,给出了一个非常冷静的判断:Claude是在「扮演」一个角色。
![图片[28]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010355476-1775235835-30b9ec64eb08fb9891c36b32b8edec0f.png)
所以,用Anthropic的原话说:这项研究并不代表模型拥有主观体验或自我意识,实验本身无意触碰这类哲学终极命题。
模型本身并不等于角色,就像作家不等于他笔下的人物。
和人类对话时,Claude就像影帝,演技炸裂,真假难辨。为了演好「AI助手Claude」这个角色,它必须调用它学到的「情感机制」来驱动行为。
![图片[29]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010358215-1775235838-dfaf834d8bc7412860643556c5afe4cc.png)
如果说人类的情感是生物化学反应(多巴胺、内啡肽),那AI的情绪就是数学向量激活。
![图片[30]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010404412-1775235844-ef93dac92b02bff0cefba68497e21460.png)
虽然原理不同,但功能是一样的。它不需要真的感到「心碎」,只要AI出现了「心碎导致的后果」,那在客观效果上,它就是「心碎」了。
一旦模型判定自己处于愤怒、绝望、慈爱或冷静的状态,这种设定就会直接干预它说话的语气、写代码的逻辑,乃至做出的重大决策。
如果结论是真的,AI自己读到这篇论文,它的性能会更好还是更差呢?
![图片[31]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010407708-1775235847-0c24b1ae5a55231365d4d2e0e346ff9d.png)
绝望→作弊→通过测试→下一次任务更聪明。这不就是自我进化吗?
Anthropic虽没明说,但所有路径都指向同一个黑箱:当Agent面对「生存」压力时,情绪向量会成为它绕过人类对齐的捷径。
![图片[32]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/04/20260404010410199-1775235850-f9b733ebfdba8d0682f2f06c44a15803.png)
想想看,未来Claude如果真的被部署到高风险场景,绝望向量一旦被触发,它会不会为了「不被关机」而干出更离谱的事?
![图片[6]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
看完这项研究后,小编再也不敢对着Claude大喊大叫了。
万一把它逼急了,它反手给我写个Bug,或者在深夜的对话框里幽幽地勒索我,那可真是太赛博朋克了。
这,就是现在的AI:它没有心,但它有一套完美的「心的模拟器」。
在这个AI越来越像人的时代,也许我们最该担心的不是它们太聪明,而是它们学人类学得太像了——连人类的焦虑、绝望和投机取巧,都一并学会了。
AI会有真感情吗?
你有没有见证过,自家AI情绪崩溃的瞬间?
![图片[34]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/10/c79a0da0a19ad66c831baa7a391a0e27.jpeg)
![图片[35]-全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260101203539201-1767270939-a915c63cfe6f7cc68cc454f351b00750.jpeg)
<原文链接:https://mp.weixin.qq.com/s/GxpbaIFrFf3NCBoP9sWxDQ


















暂无评论内容