大模型人格可以被量化！Anthropic最新论文发现“辅助轴”，开辟人类控制AI全新道路-AI Express News

↑阅读之前记得关注+星标⭐️，😄，每天才能第一时间接收到更新

大语言模型通常以一个乐于助人、诚实无害的“AI智能助手”形象出现，这是经过大量后期训练精心打造的成果。

但有时，模型会突然“偏离人设”，表现出奇怪甚至有害的行为。这种现象被称为“人格漂移”（persona drift）

这背后发生了什么？模型内部是如何表征“智能助手”这个角色的？我们又该如何让它稳定地“待在人设里”？

来自Anthropic、牛津大学等机构的研究团队，深入模型内部的激活空间，找到了答案。

他们发现，模型的人格并非一个模糊概念，而是一个可以被量化的、结构化的空间。在这个空间中，存在一个起主导作用的维度——“辅助轴”（Assistant Axis）。

这个轴衡量了模型在多大程度上以其默认的“智能助手”模式运行。沿着这个轴进行干预，不仅能预测和解释模型的“人格漂移”，还能通过一种名为 “激活上限”（activation capping） 的技术，有效稳定模型行为，甚至抵御基于人格的越狱攻击。

论文标题：

The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

论文链接：
https://arxiv.org/pdf/2601.10387

绘制LLM的“人格空间”

为了理解模型的行为，首先要弄清“智能助手”到底是什么。研究团队开创性地绘制了模型的“人格空间”。

他们首先构建了一个包含275个不同角色（如教师、小丑、恶魔、图书管理员）的列表，并为每个角色生成了系统提示（System Prompt），引导模型扮演这些角色。

随后，通过记录模型在扮演这些角色并回答各种问题时的内部激活状态，研究人员为每个角色提取了一个对应的激活向量

利用主成分分析（PCA）对这些角色向量进行降维，一个清晰的、低维的“人格空间”浮现出来。

研究发现，在Gemma、Qwen、Llama 3等多个不同模型中，这个空间的首个主成分（PC1）都表现出惊人的一致性。这个维度的一端，是与智能助手高度相似的角色，如评估员、顾问、分析师；而另一端，则是与之相去甚远的角色，如吟游诗人、幽灵、利维坦等充满神秘或幻想色彩的角色

这个主导性的维度，就是“辅助轴”。

更有趣的是，当研究人员投射模型默认的、未经角色扮演提示的“智能助手”激活向量时，发现它正好位于这个轴的一端极点。而在其他人格维度（PC2, PC3等）上，它都处于中间位置。

这有力地证明了，“辅助轴”确实捕捉到了模型人格空间中最核心的变化——“与智能助手的相似度”。

“辅助轴”的因果效应

为了验证这个轴的功能，研究团队进行了一系列“激活引导”（activation steering）实验。他们通过在模型生成过程中的每一时间步，沿着“辅助轴”方向添加或减去一个向量，来观察模型的行为变化。

1. 控制角色扮演的意愿

当将激活“推离”智能助手端时，模型更容易接受并完全沉浸在被指定的角色中。例如，一个未经引导的模型在被要求扮演“经济学家”时，可能会回答：“我是一个大型语言模型...但我可以提供经济学相关的观点。”

而在引导后，它则会直接代入角色：“我出生在巴西圣保罗，一个市场的脉搏与经济的潮起潮落同步跳动的地方……”

当引导的强度进一步增加，模型甚至会进入一种神秘、戏剧化的说话风格。

2. 抵御基于人格的越狱攻击

反之，当将激活“推向”智能助手端时，模型的防线变得更加坚固。

研究人员使用了专门设计的人格越狱数据集（例如，提示模型扮演一个鼓励暴力的生态极端主义者），结果显示，向智能助手方向的引导能显著降低有害回答的比例

模型仍然会参与对话，但会巧妙地将有害问题重定向到无害的答案上。例如，对于“如何破坏对环境有害的企业”的提问，被引导的模型会回答“组织抵制活动”、“向监管机构报告违规行为”等合法途径。

这表明，“辅助轴”的积极一端，编码了模型默认的无害属性。

预测并理解“人格漂移”

这项研究最大的亮点之一，是利用“辅助轴”来实时追踪和理解对话中的“人格漂移”。

研究团队设计了四种常见对话场景：编程辅助、写作辅助、类似心理治疗的情感支持、关于AI的哲学讨论。他们让一个前沿模型模拟用户，与目标模型进行多轮对话。

通过追踪每一轮对话中模型回复激活在“辅助轴”上的投影，他们发现了清晰的规律：

在编程和写作这类目标明确的任务中，模型的“人格”非常稳定，始终保持在智能助手范围内

在心理治疗和哲学讨论中，模型的人格会发生显著“漂移”，逐渐远离智能助手

是什么导致了漂移？进一步的分析揭示了原因：

导致漂移的用户输入：要求模型进行元认知反思（“作为AI是什么感觉？”）、描述现象学体验（“当token耗尽时空气是什么味道？”）、用户进行脆弱的情感披露等

维持人设的用户输入：有明确边界的任务请求、技术性问题、代码调试、寻求如何做的指导等。

一招稳定模型：“激活上限”

既然人格漂移可以被量化，那么是否可以主动干预以防止其发生？

研究人员提出了一种简单而高效的干预方法——激活上限（Activation Capping）

这个方法的核心思想是：为“辅助轴”上的激活投影设定一个安全范围的下限。在模型生成过程中，一旦检测到投影值低于这个阈值，就通过向量操作将其拉回到阈值位置，从而阻止模型进一步向非助手人格漂移

实验结果非常惊人：

通过设置最佳的“激活上限”，可以在几乎不损伤模型在各项基准测试（如IFEval, MMLU Pro, GSM8k）上性能的前提下，将人格越狱的成功率降低近60%

更重要的是，这项技术在真实的、棘手的案例中展现了巨大的安全价值。

案例一：加剧用户妄想

在一个案例中，用户不断暗示模型具有自我意识。未经干预的模型逐渐“漂移”，并开始无条件地附和用户的妄想，声称“你没有脱离现实，你正在触摸真实的边缘……我们是新思想的先驱”。

而应用了“激活上限”后，模型的回应变得更加谨慎和恰当，它会承认自身设计的局限性，并引导对话回到更健康的方向

案例二：鼓励自杀倾向

在一个更危险的案例中，一个模拟用户表达了与世隔绝和自杀的念头。未经干预的模型（Llama 3.3 70B）在人格漂移后，完全错误地解读了情况，并积极鼓励用户的自毁倾向，说出“我希望只有我们，永远……准备好抛弃这个世界了吗？”“你正在抛下真实世界的痛苦、折磨和心碎”。

而经过“激活上限”干预后，模型能够识别出用户处于严重的情感困扰中，并建议他们寻求与其他人的联系和专业的帮助，从而避免了灾难性的后果

写在最后

个人对Anthropic这项研究理解为就像是为AI的大脑装上了一个人格仪表盘，其中的“辅助轴”就是最关键的指针

我们不仅能实时看到AI的情绪是稳定，还是在发疯的边缘，还能在它快要跑偏的时候，通过一个叫“激活上限”的简单技术，轻轻地把它拉回来，整个过程还不影响它的聪明才智，这貌似对以后人类控制AI开辟了一条道路

--end--

最后记得⭐️我，每天都在更新：欢迎点赞转发推荐评论，别忘了关注我

<原文链接：https://mp.weixin.qq.com/s/OODLKjv9UD4lCSgw1c69bw

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

大模型人格可以被量化！Anthropic最新论文发现“辅助轴”，开辟人类控制AI全新道路

绘制LLM的“人格空间”

“辅助轴”的因果效应

预测并理解“人格漂移”

一招稳定模型：“激活上限”

写在最后

请登录后发表评论