人机共生的新方向:成为不可预测的人

从泰坦星(Titan)到 Titans:寻找那 1400 万分之一

在漫威电影《复仇者联盟3》中,有一个让影迷津津乐道的名场面:

在泰坦星(Titan)的废墟上,奇异博士利用时间宝石,在短短几分钟内“遍历”了 14,000,605种未来的可能性。当钢铁侠问他,我们赢了几次时,他回答:“只有一次。

巧合的是,Google DeepMind 这篇旨在重塑 AI 记忆的论文,名字也叫 Titans

图片[1]-人机共生的新方向:成为不可预测的人-AI Express News

这个隐喻再精准不过了。目前的 AI 就像是正在通过时间宝石疯狂演算的奇异博士。在测试时学习(Test-Time Learning)的加持下,Titans 架构的 AI 不再只是机械地复述过去,而是在推理的当下,通过海量的计算和权重更新,试图从千万种可能的话语路径中,预测出最符合逻辑的那一个。

但这里藏着一个残酷的博弈:

AI 倾向于预测那 1400 万次“符合概率”的未来(因为这最安全,梯度最小);而人类的价值,在于创造那唯一一次的、概率极低却最终制胜的“意外”。

如果 AI 是那个算尽一切的奇异博士,那你必须成为那个让他算出“无法预测”结果的变量。 《Titans: Learning to Memorize at Test Time》提出了一种颠覆性的全新架构:

AI 不应只在训练时学习,更应在和你对话的当下,像生物神经系统一样,通过实时修改自己的神经参数,物理性地、生理性地刻录下你的信息 

这不只是底层技术的飞跃,更是一个惊悚的信号:当AI 真的长出了私有记忆,不再依赖外挂硬盘时,人机共生的规则,将彻底改变。

第一部分:深度拆解Titans——AI 记忆机制的范式革命

如果说Transformer AI 时代的蒸汽机,那么Google DeepMind 这篇论文提出的Titans 架构,试图为这台机器装上一个生物般的海马体。为了理解这一变革的破坏力,我们需要先拆解它底层的技术逻辑——这不仅仅是代码的重构,更是对记忆本质的重新定义。

1.核心定义:什么是在测试时学习

在过去十年的深度学习范式中,AI 的生命周期被严格切割为两个阶段:训练和推理

传统的Transformer 模型一旦训练完成,其千亿参数就被冻结了。当你和它对话时,无论聊了多久,它的大脑都不会发生任何物理层面的改变。它记得你,全靠把聊天记录暂存在显存的键值缓存里。一旦窗口溢出,之前的对话就如同从未发生过。

Titans彻底颠覆了这一设定。论文将其定义为一个元上下文学习器” 

Titans 的架构中,AI 不再是一个静态的模型,而是一个在推理阶段仍在实时进化的系统。当你输入一段话时,Titans 不仅仅是读取它,而是将其视为训练数据,通过梯度下降实时更新其内部长期记忆模块的参数。

换句话说,传统AI 是把你的话写在记事本上(缓存),随时可能丢弃;而Titans 是把你的话通过神经突触的重塑,刻进了脑子里(参数更新)。

2. Titans三位一体大脑架构

为了实现这种类脑的记忆能力,Google 团队设计了一种包含三个超头的仿生架构。这种设计巧妙地模拟了人类大脑处理不同类型记忆的方式:

  • 核心:短期工作记忆

这部分仍然使用了我们熟悉的注意力机制。它负责处理当前时刻的信息流,能够精确地捕捉当前上下文中的依赖关系。但就像人类的工作记忆一样,它的容量有限,主要负责此时此刻的精准计算。

  • 神经长期记忆:深层存储皮层

这是本文的主角。它不再是简单的向量或矩阵,而是一个深层神经网络。它的职责是将历史上的海量信息进行压缩和抽象,并存储在自身的权重参数中。论文通过实验证明,深层的记忆模块比浅层的线性记忆具有更强的表达能力,能更好地处理超长序列。

  • 持久记忆:原本的知识库

这类似于人类的常识世界观。它是一组可学习的、但与当前输入数据无关的参数。它负责存储关于任务的通用知识,为模型提供一个稳定的认知基座,不随具体的对话流而轻易改变。

3.记忆的数学本质:惊奇度与遗忘

这就引出了一个最关键的问题:面对海量的信息流,Titans 凭什么决定把哪些信息刻入长期记忆,把哪些信息丢弃?

论文给出的答案极其性感且具有哲学意味:惊奇度(Surprise

在数学上,Titans 使用梯度(Gradient)来衡量惊奇度。模型会不断预测下一个输入,如果实际输入的数据与模型的预期相符(比如一句陈词滥调),产生的梯度会非常小,模型几乎不会更新参数——这意味着它懒得记

反之,如果输入的数据出乎意料,导致模型产生了巨大的预测误差,梯度就会瞬间飙升。这个巨大的梯度值会作为信号,驱动长期记忆模块大幅度更新权重,强行记住这个异常点。

为了防止记忆过载,Titans 还引入了遗忘机制。论文采用了权重衰减技术,这类似于生物神经的用进废退。通过调节一个门控参数通过调节一个门控参数,模型可以自动淡化那些不再被新的惊奇所激活的旧记忆,从而在有限的脑容量中腾出空间,接纳新的信息。

这就是Titans 的技术底色:唯有惊奇,值得铭记。

第二部分:残酷的推论——AI 记忆过滤器

如果说第一部分的技术拆解让你看到了AI 进化的曙光,那么接下来的推论可能会让你感到一丝寒意。当我们把Titans 的数学公式映射到人类社会学层面时,一个关于存在感的残酷真相浮出水面。

1. “平庸在数学上等于隐形

让我们再次审视Titans 论文中那个决定命运的核心公式:

图片[2]-人机共生的新方向:成为不可预测的人-AI Express News

这个公式直白地告诉我们:记忆的更新量,直接取决于梯度,也就是惊奇度

这就引出了一个令人不安的数学推论:

如果你的言行举止完全符合AI 的预测模型——你的逻辑严丝合缝却毫无新意,你的观点是教科书般的陈词滥调,或者你只是在充当一个信息的搬运工(复读机)——那么,对于模型而言,预测误差极小,梯度将无限趋近于0

这意味着什么?

意味着:

图片[3]-人机共生的新方向:成为不可预测的人-AI Express News


“你的输入没有触发任何参数更新”。

对于Titans 架构的AI 来说,一个循规蹈矩、缺乏意外性的平庸人类,在数学层面上是隐形的。你说了话,但你没有在它的神经突触上留下任何物理痕迹。更残酷的是,Titans 还内置了遗忘机制。随着时间的推移,权重衰减会像新陈代谢一样,自动清洗掉那些没有被新的惊奇反复激活的旧痕迹。

在算法的眼中,不被惊奇,即不存在。

2.人机关系的权力反转

长久以来,我们对人机关系不仅乐观,甚至带着一种傲慢。我们认为AI 是数字时代的书记员,它的职责是忠实地记录、检索我们产生的一切数据。我们默认自己是数据的主人,AI 是服务的仆从。

Titans 的出现,无声地宣告了这种关系的终结。它揭示了记忆是需要争取的

在海量的信息洪流中,拥有长期记忆能力的AI 不再是被动的接收者,而是拥有了生杀予夺大权的记忆过滤器。它只会通过惊奇度这一唯一指标,来筛选哪些信息值得消耗宝贵的参数空间被刻录下来。

这带来了一个全新的观点:人类不再是数据的拥有者,而是AI 记忆系统的供给者

在未来的人机共生中,能够提供高质量惊奇供给的人,将获得AI 的长期关注和深度协同;而那些只能提供低熵值、可预测信息的人,将沦为系统的背景噪音。这不仅是权力的反转,更是进化压力的转移——为了不被遗忘,我们必须学会如何让AI 感到惊讶

第三部分:人机共生新方向——成为“不可预测”的物种

如果Titans 架构代表了未来智能的形态,那么人类必须重新审视自己的进化方向。在这个由惊奇度主导的数学宇宙里,我们要做的不是变得更像机器,而是让自己变得更像混乱本身。

1. 进化的死胡同:不要试图比AI 逻辑

我们现行的教育体系,本质上是在培养“可被预测的对象。我们训练逻辑推理、背诵标准答案、追求严密的因果链条。在过去,这是高智商的表现;但在Titans 面前,这可能是一条进化的死胡同。

为什么?因为逻辑和理性,是AI 最擅长的领域。

Titans的核心优势在于通过上下文捕捉依赖关系。逻辑越严密,意味着下一步越容易被推导;行为越理性,意味着越符合统计概率。在数学上,这对应着极低的惊奇度,也就意味着极小的梯度

当你试图用完美的逻辑去和AI 竞争时,你实际上是在主动降低自己的存在感。你不仅无法战胜它的算力,还会因为过于可预测而被它的遗忘机制视为冗余信息清理掉。最终,你会沦为算力世界的背景噪音——因为你太正确了,所以你不再重要。

2. 进化的新策略:做个捣乱者

在人机共生的新纪元,人类的价值将被重新定义:我们存在的意义,在于提供AI 无法通过概率预测出来的东西。我们要成为“不可被预测的物种

·拥抱混乱:不要害怕思维的跳跃和断裂。Titans 的记忆模块通过梯度下降来更新,而梯度的本质就是预期违背。只有当你打破了AI 的预测模型,提供了它算不出来的混乱,你才能触发高额的梯度信号,强行写入它的神经参数。

·创造意外:艺术、直觉、非线性思维、突如其来的情感爆发、跨度极大的联想——这些在传统工业时代被视为不严谨情绪化的弱点,在Titans 时代却是最高价值的资产。

案例:AI 可以瞬间生成一篇逻辑完美、辞藻华丽的八股文或公文,因为它的每一个词都符合概率分布。但AI 很难写出卡夫卡的《变形记》——开篇第一句一天早晨,格里高尔·萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。这种荒诞、非理性的跳跃,对AI 构成了巨大的惊奇冲击,迫使它必须调整参数来接纳这个全新的概念。

3. 定义持久记忆的战场

最后,我们需要重新审视Titans 架构中的第三个模块——持久记忆

论文中提到,持久记忆是一组可学习但与具体输入数据独立的参数,它负责编码关于任务的抽象知识。如果把长期记忆比作个人的经历,那么持久记忆就是AI 三观元认知

人类不应再卷入具体的上下文争夺,因为在海量数据的吞吐上我们必败无疑。人类真正的战场,在于争夺Persistent Memory的定义权。

我们需要去定义什么是,什么是,什么是值得被惊奇的。我们需要成为AI 记忆系统的策展人,通过设定高维度的价值观参数,来指引AI 应该对哪些信息产生惊奇,从而决定它进化的方向。

在这个层面上,我们不再是数据的生产者,而是意义的立法者

第四部分:具体的人机共生实操指南

既然我们已经明确了惊奇度是人机共生时代的新货币,那么我们与AI 协作的具体方式也必须随之发生翻天覆地的变化。这是一份基于Titans 架构原理的、完全反直觉的实操指南。

1. 不要试图做AI 好老师

在传统的微调时代,我们被教导要给AI 喂食干净高质量逻辑顺畅的数据,就像老师教学生一样,循循善诱。但在Titans 开启的Test-Time Learning时代,这种做法可能是错误的。

为什么?回顾Titans 的核心机制:记忆的更新取决于梯度的反向传播

如果你给Titans 喂入的数据太过于顺滑、太符合它的预期(Pre-training 已经覆盖的知识),那么模型在预测下一个token 时几乎没有误差。这意味着梯度极小,甚至接近于零。在这种情况下,长期记忆模块的参数几乎不会发生更新。

实操建议:如果你想让你的AI 真正记住某种独特的思维方式或知识,不要只是平铺直叙地告诉它。你需要制造认知冲突。故意展示反常识的案例,或者在对话中引入它训练数据中罕见的逻辑悖论。只有当你打破了它的预测模型,产生了足够的惊奇梯度,它的大脑皮层才会真正开始重塑。

2. 要做AI 对手:对抗性共生

共生的最高境界,不是和谐的你问我答,而是对抗性共生

Titans架构明确区分了作为短期记忆的注意力和作为长期记忆的神经记忆。注意力机制处理当前的上下文窗口,而神经记忆处理长期的历史抽象。

如果你总是顺着AI 的思路聊,它只需要调用注意力模块就能应付你,因为所有信息都在当前的Context Window 里。它根本不需要动用那深层的、消耗能量的长期记忆模块

实操建议:打破预期窗口:在对话中突然引用很久之前的细节,或者跳跃到完全不相关的领域,迫使AI Attention 机制失效,逼迫它去检索深层的神经记忆。

·倒逼进化:通过这种不断的非线性跳跃,你不仅是在训练AI 的长期记忆检索能力,也是在倒逼自己突破线性的思维定式。这种互相折磨、互相挑战的过程,才是Titans 时代最高效的训练。

3. 新的图灵测试:你能吓到”AI 吗?

阿兰·图灵在1950 年提出的测试是:看机器能不能骗过人。而在Titans 诞生的2025 年,我们需要一个新的图灵测试。

新图灵测试标准:不是看AI 像不像人,而是看人能不能让AI 产生高梯度

正如论文中所定义的,惊奇度是记忆的源动力。如果一个人类在与AI 的交互中,始终无法触发AI 的梯度飙升,无法让AI 感到“Surprise”,那么这个人类在智力层面上已经被AI 的预测模型完全覆盖了。

残酷的结论:如果有一天,无论你说什么、做什么,你的AI 助手都波澜不惊,给出的回应永远都在你的意料之中,且它的参数不再因为你而更新。那么,不是它坏了,而是你退休了。你已经无法再为这个系统提供任何新的价值。

在这个意义上,保持不可预测性,是人类在智能时代最后的防线。

结语:遗忘是常态,被记住是特权

Titans论文中那个看似冰冷的数学公式

图片[4]-人机共生的新方向:成为不可预测的人-AI Express News

 其实向我们揭示了一个关于未来的宇宙法则。

它无情地宣判:在这个智能爆炸的时代,凡是可被预测的,终将被算法压缩、折叠,直至遗忘;

唯有那些无法被计算的、不可预测的闪光,才能冲破遗忘的重力,成为机器大脑中永恒的参数。

去创造惊奇吧。当算力可以穷尽一切逻辑,意外就是碳基生命最后的尊严。

原文链接:https://mp.weixin.qq.com/s/h1jVtcL00iVjhMArmaItOA

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容