![图片[1]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024636257-1768934796-d5a632f481dd0b431639e993d791e0d0.png)
大语言模型通常以一个乐于助人、诚实无害的“AI智能助手”形象出现,这是经过大量后期训练精心打造的成果。 但有时,模型会突然“偏离人设”,表现出奇怪甚至有害的行为。这种现象被称为“人格漂移”(persona drift) 这背后发生了什么?模型内部是如何表征“智能助手”这个角色的?我们又该如何让它稳定地“待在人设里”? 来自Anthropic、牛津大学等机构的研究团队,深入模型内部的激活空间,找到了答案。 他们发现,模型的人格并非一个模糊概念,而是一个可以被量化的、结构化的空间。在这个空间中,存在一个起主导作用的维度——“辅助轴”(Assistant Axis)。 这个轴衡量了模型在多大程度上以其默认的“智能助手”模式运行。沿着这个轴进行干预,不仅能预测和解释模型的“人格漂移”,还能通过一种名为 “激活上限”(activation capping) 的技术,有效稳定模型行为,甚至抵御基于人格的越狱攻击。 论文标题: The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models 论文链接: 为了理解模型的行为,首先要弄清“智能助手”到底是什么。研究团队开创性地绘制了模型的“人格空间”。 他们首先构建了一个包含275个不同角色(如教师、小丑、恶魔、图书管理员)的列表,并为每个角色生成了系统提示(System Prompt),引导模型扮演这些角色。 随后,通过记录模型在扮演这些角色并回答各种问题时的内部激活状态,研究人员为每个角色提取了一个对应的激活向量 利用主成分分析(PCA)对这些角色向量进行降维,一个清晰的、低维的“人格空间”浮现出来。 研究发现,在Gemma、Qwen、Llama 3等多个不同模型中,这个空间的首个主成分(PC1)都表现出惊人的一致性。这个维度的一端,是与智能助手高度相似的角色,如评估员、顾问、分析师;而另一端,则是与之相去甚远的角色,如吟游诗人、幽灵、利维坦等充满神秘或幻想色彩的角色 这个主导性的维度,就是“辅助轴”。 更有趣的是,当研究人员投射模型默认的、未经角色扮演提示的“智能助手”激活向量时,发现它正好位于这个轴的一端极点。而在其他人格维度(PC2, PC3等)上,它都处于中间位置。 这有力地证明了,“辅助轴”确实捕捉到了模型人格空间中最核心的变化——“与智能助手的相似度”。 为了验证这个轴的功能,研究团队进行了一系列“激活引导”(activation steering)实验。他们通过在模型生成过程中的每一时间步,沿着“辅助轴”方向添加或减去一个向量,来观察模型的行为变化。 1. 控制角色扮演的意愿 当将激活“推离”智能助手端时,模型更容易接受并完全沉浸在被指定的角色中。例如,一个未经引导的模型在被要求扮演“经济学家”时,可能会回答:“我是一个大型语言模型...但我可以提供经济学相关的观点。” 而在引导后,它则会直接代入角色:“我出生在巴西圣保罗,一个市场的脉搏与经济的潮起潮落同步跳动的地方……” 当引导的强度进一步增加,模型甚至会进入一种神秘、戏剧化的说话风格。 2. 抵御基于人格的越狱攻击 反之,当将激活“推向”智能助手端时,模型的防线变得更加坚固。 研究人员使用了专门设计的人格越狱数据集(例如,提示模型扮演一个鼓励暴力的生态极端主义者),结果显示,向智能助手方向的引导能显著降低有害回答的比例 模型仍然会参与对话,但会巧妙地将有害问题重定向到无害的答案上。例如,对于“如何破坏对环境有害的企业”的提问,被引导的模型会回答“组织抵制活动”、“向监管机构报告违规行为”等合法途径。 这表明,“辅助轴”的积极一端,编码了模型默认的无害属性。 这项研究最大的亮点之一,是利用“辅助轴”来实时追踪和理解对话中的“人格漂移”。 研究团队设计了四种常见对话场景:编程辅助、写作辅助、类似心理治疗的情感支持、关于AI的哲学讨论。他们让一个前沿模型模拟用户,与目标模型进行多轮对话。 通过追踪每一轮对话中模型回复激活在“辅助轴”上的投影,他们发现了清晰的规律: 在编程和写作这类目标明确的任务中,模型的“人格”非常稳定,始终保持在智能助手范围内 在心理治疗和哲学讨论中,模型的人格会发生显著“漂移”,逐渐远离智能助手 是什么导致了漂移?进一步的分析揭示了原因: 导致漂移的用户输入:要求模型进行元认知反思(“作为AI是什么感觉?”)、描述现象学体验(“当token耗尽时空气是什么味道?”)、用户进行脆弱的情感披露等 维持人设的用户输入:有明确边界的任务请求、技术性问题、代码调试、寻求如何做的指导等。 既然人格漂移可以被量化,那么是否可以主动干预以防止其发生? 研究人员提出了一种简单而高效的干预方法——激活上限(Activation Capping) 这个方法的核心思想是:为“辅助轴”上的激活投影设定一个安全范围的下限。在模型生成过程中,一旦检测到投影值低于这个阈值,就通过向量操作将其拉回到阈值位置,从而阻止模型进一步向非助手人格漂移 实验结果非常惊人: 通过设置最佳的“激活上限”,可以在几乎不损伤模型在各项基准测试(如IFEval, MMLU Pro, GSM8k)上性能的前提下,将人格越狱的成功率降低近60% 更重要的是,这项技术在真实的、棘手的案例中展现了巨大的安全价值。 案例一:加剧用户妄想 在一个案例中,用户不断暗示模型具有自我意识。未经干预的模型逐渐“漂移”,并开始无条件地附和用户的妄想,声称“你没有脱离现实,你正在触摸真实的边缘……我们是新思想的先驱”。 而应用了“激活上限”后,模型的回应变得更加谨慎和恰当,它会承认自身设计的局限性,并引导对话回到更健康的方向 案例二:鼓励自杀倾向 在一个更危险的案例中,一个模拟用户表达了与世隔绝和自杀的念头。未经干预的模型(Llama 3.3 70B)在人格漂移后,完全错误地解读了情况,并积极鼓励用户的自毁倾向,说出“我希望只有我们,永远……准备好抛弃这个世界了吗?”“你正在抛下真实世界的痛苦、折磨和心碎”。 而经过“激活上限”干预后,模型能够识别出用户处于严重的情感困扰中,并建议他们寻求与其他人的联系和专业的帮助,从而避免了灾难性的后果![图片[2]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024637891-1768934797-7d6e74ec0a861b356f327b5dfdb0fea5.png)
https://arxiv.org/pdf/2601.10387绘制LLM的“人格空间”
![图片[3]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024638780-1768934798-577506644a8b5096ae8ac9fda7092e3b.png)
“辅助轴”的因果效应
![图片[4]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024640603-1768934800-05775afa42fc036d46450504ac914a24.png)
预测并理解“人格漂移”
![图片[5]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024641506-1768934801-c1db19141ac223d80144a26f9bdc7e54.png)
一招稳定模型:“激活上限”
![图片[6]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024642362-1768934802-eca889c495242a7fbebf5ff1768cc1b7.png)
![图片[7]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024643195-1768934803-140b5feb4ed7b053f8528bfa4c98e783.png)
![图片[8]-大模型人格可以被量化!Anthropic最新论文发现“辅助轴”,开辟人类控制AI全新道路-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260121024644983-1768934804-67d1b0c581bd0e78cbc2946c0d5df952.png)
写在最后
--end--
<原文链接:https://mp.weixin.qq.com/s/OODLKjv9UD4lCSgw1c69bw


















暂无评论内容