太巅了!MIT老哥在Transformer里造了台计算机,LLM从此不需要调用外部工具?

图片[1]-太巅了!MIT老哥在Transformer里造了台计算机,LLM从此不需要调用外部工具?-AI Express News

↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新

LLM能拿IMO金牌,却算不对小学生数学。

这个矛盾,长期困扰着整个AI领域。

现在,有人给出了一个全新的解法——不是再挂一个外部工具,而是直接在Transformer内部造一台计算机。

连AK大神都惊呼牛批

图片[2]-太巅了!MIT老哥在Transformer里造了台计算机,LLM从此不需要调用外部工具?-AI Express News

大模型的致命短板

当前最先进的语言模型在数学推理上的表现令人印象深刻——GPT类系统已能达到国际数学奥林匹克金牌水准,也能处理开放性科学难题。

但有一块顽固的短板始终存在:纯计算任务。

基础加法会出错。简单数独不靠外力就解不了。Sudoku-Bench等基准测试结果显示,大模型在无辅助情况下的解题率极低。

目前的两条绕路方案是:

工具调用:模型写代码,外部解释器执行,再把结果塞回来。这有效,但执行本身发生在模型外部。

智能体编排:用外部循环保存中间状态、分解任务、反复调用模型。本质上是给模型外面套了一个状态机。

一个类比能说清楚问题的本质:人类不会飞,造飞机也没有改变这一事实,只是造了一台替我们飞的机器。

今天的大模型面对计算任务,处境完全一样——能描述算法、能协调工具去跑算法,但自己无法执行算法。一个不能计算的系统,无法真正理解什么是计算。


在Transformer里造计算机

来自MIT phd老哥Christos Tzamos和研究团队,选择正面突破。

图片[3]-太巅了!MIT老哥在Transformer里造了台计算机,LLM从此不需要调用外部工具?-AI Express News

他们的核心方案:在Transformer内部实现一台现代RAM计算机,并将任意C代码编译成模型可直接执行的token序列。

具体做法是在Transformer权重里实现了一个WebAssembly解释器。WebAssembly是一种低层级指令集,C/C++等语言可以直接编译到它。每条指令最多映射为5个token。

执行3+5的过程是这样的:模型生成WebAssembly指令序列,然后切换到快速解码模式,在同一个Transformer内部逐token执行程序,输出完整的执行轨迹:

03 00 00 00  commit(+1,sts=1,bt=0)
05 00 00 00  commit(+1,sts=1,bt=0)
08 00 00 00  commit(-1,sts=1,bt=0)
out(08)
halt

栈增长、加法触发、结果输出、机器停机——全部在模型自己的输出流里完成,没有任何外部调用。

工具调用是不透明的:模型交出控制权,收到一个黑盒答案。模型内执行是透明的:每个中间步骤都出现在轨迹里,模型从未离开自己的解码循环。


数独:最难的那道题也解开了

数独是长链精确计算的另一个压力测试。

神经网络方法在简单或随机数独上表现不错,但碰到难题直接崩溃。通常的解释是:自回归模型逐token提交答案、无法修正早期错误,天然不适合约束满足问题。

这项工作给出了不一样的答案:问题不在于自回归范式本身,而在于解难题需要极长的执行轨迹,而标准注意力机制让长上下文生成代价过高。

他们的系统在Transformer内部执行了一个编译好的数独求解器,达到了100%准确率,包括世界公认最难的Arto Inkala数独——在3分钟内给出正确答案。

图片[4]-太巅了!MIT老哥在Transformer里造了台计算机,LLM从此不需要调用外部工具?-AI Express News

保证是普适的:只要编译进去的求解器本身是正确的,Transformer的执行结果就是正确的。没有学习出来的启发式猜测,没有"模型建议答案"和"外部系统验证答案"之间的落差。


核心技术突破:指数级提速的注意力机制

方案要真正成立,还需要解决一个更深的工程障碍。

Transformer作为执行器有一个结构性缺陷:标准自回归解码让每一步都需要与不断增长的历史序列交互。真实计算机更新紧凑状态,每条指令的计算量近似恒定。Transformer生成第t个token时,还需要与长度为t的前缀交互——KV缓存节省了重新计算的开销,但扫描缓存的代价仍然随序列长度线性增长。

结果是:每步的计算量随轨迹长度线性增长,生成t个token的总代价是二次方的。这是Transformer的经典瓶颈。

研究团队的突破在于:他们发现,在执行轨迹这种结构化场景下,Transformer的注意力机制可以走一条完全不同的解码路径。

关键限制条件:将注意力头的维度限制为2维。

这一限制让事情发生了质变。

在2维情况下,注意力查询可以用几何的语言重新表述:所有历史token的键向量构成平面上的一个点集,每次查询等价于在这个集合上做一次最大内积检索——即在给定方向上找凸包上最远的点。这是计算几何中的经典问题,有对数时间复杂度的数据结构可以解决。

于是,标准解码中的线性扫描(对每个键逐一打分)被替换为凸包查询(维护一个几何数据结构,每次检索只需访问极少数点)。

效果是:每步解码从Θ(t)降到O(log t)。

实测结果中,HullKVCache与标准KVCache的每步耗时随序列长度的增长曲线,差距极为显著。

图片[5]-太巅了!MIT老哥在Transformer里造了台计算机,LLM从此不需要调用外部工具?-AI Express News

整个系统在CPU上的吞吐量超过每秒3万token,足以在数百万步内持续执行程序。


2维够用吗?

这个限制会不会太强?

研究团队的回答是:用于图灵完备性,2维注意力已经足够,并在论文中证明了这一点。

模型本身是完全标准的PyTorch Transformer,没有任何定制化注意力核,没有稀疏掩码。d_model=36n_heads=18,每头恰好2维,7层网络。特别之处只在于权重本身。

整个模型仍然可以有任意数量的层、任意数量的头和任意大小的嵌入维度,2维的约束只作用于每个头内部的键值对,换来的是可以有更多的头。

对于软max注意力,近似方案同样可行:通过检索top-k个键、只对这些键做softmax,可以达到O(k + log n)的解码代价。同样的思路也可以推广到三维头(基于三维凸包),尽管更高维度的效率会迅速下降。


接下来能做什么

这项工作打开的不只是一个模型优化方向,而是软件与神经网络之间的一个新接口。

混合系统:让语言模型负责规划和推理,内部执行引擎负责运行算法。两者之间的边界不是外部API调用,而是同一个前向传播过程的不同路径。由于执行轨迹是前向传播的一部分,整个过程是可微的——梯度可以传播穿过计算本身,这与外部工具有本质区别。

程序编译进权重:目前的原型是在权重里学会了一个解释器。但研究团队构建的编译机制可以走得更远——任意程序可以直接编译进Transformer权重,而不需要以token序列的形式表示。这意味着权重本身可以成为软件的部署目标。

超越梯度下降的训练:如果逻辑可以被编译进权重,梯度下降就不再是修改模型的唯一方式。权重编译提供了另一条路径,可以直接向网络中注入结构、算法和可靠性保证。

像软件库一样生长的AI系统:现代软件生态通过积累模块、抽象和可复用组件不断演化。AI系统内部可能发生类似的过程——新的计算能力被增量式地添加进模型的内部执行引擎。


研究团队的最终图景是:未来的AI系统不只是使用软件,而是包含软件——把学习到的表示和编译好的算法整合进同一个计算基底。在那个世界里,软件本身成为模型的一部分。

详细信息请看:

https://www.percepta.ai/blog/can-llms-be-computers

--end--

 

最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者:你说的完全正确(YAR师)

<原文链接:https://mp.weixin.qq.com/s/RL0aSX6b9Ltr6Pe0aSTHQA

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容