太巅了！MIT老哥在Transformer里造了台计算机，LLM从此不需要调用外部工具？-AI Express News

↑阅读之前记得关注+星标⭐️，😄，每天才能第一时间接收到更新

LLM能拿IMO金牌，却算不对小学生数学。

这个矛盾，长期困扰着整个AI领域。

现在，有人给出了一个全新的解法——不是再挂一个外部工具，而是直接在Transformer内部造一台计算机。

连AK大神都惊呼牛批

大模型的致命短板

当前最先进的语言模型在数学推理上的表现令人印象深刻——GPT类系统已能达到国际数学奥林匹克金牌水准，也能处理开放性科学难题。

但有一块顽固的短板始终存在：纯计算任务。

基础加法会出错。简单数独不靠外力就解不了。Sudoku-Bench等基准测试结果显示，大模型在无辅助情况下的解题率极低。

目前的两条绕路方案是：

工具调用：模型写代码，外部解释器执行，再把结果塞回来。这有效，但执行本身发生在模型外部。

智能体编排：用外部循环保存中间状态、分解任务、反复调用模型。本质上是给模型外面套了一个状态机。

一个类比能说清楚问题的本质：人类不会飞，造飞机也没有改变这一事实，只是造了一台替我们飞的机器。

今天的大模型面对计算任务，处境完全一样——能描述算法、能协调工具去跑算法，但自己无法执行算法。一个不能计算的系统，无法真正理解什么是计算。

在Transformer里造计算机

来自MIT phd老哥Christos Tzamos和研究团队，选择正面突破。

他们的核心方案：在Transformer内部实现一台现代RAM计算机，并将任意C代码编译成模型可直接执行的token序列。

具体做法是在Transformer权重里实现了一个WebAssembly解释器。WebAssembly是一种低层级指令集，C/C++等语言可以直接编译到它。每条指令最多映射为5个token。

执行3+5的过程是这样的：模型生成WebAssembly指令序列，然后切换到快速解码模式，在同一个Transformer内部逐token执行程序，输出完整的执行轨迹：

03 00 00 00  commit(+1,sts=1,bt=0)
05 00 00 00  commit(+1,sts=1,bt=0)
08 00 00 00  commit(-1,sts=1,bt=0)
out(08)
halt

栈增长、加法触发、结果输出、机器停机——全部在模型自己的输出流里完成，没有任何外部调用。

工具调用是不透明的：模型交出控制权，收到一个黑盒答案。模型内执行是透明的：每个中间步骤都出现在轨迹里，模型从未离开自己的解码循环。

数独：最难的那道题也解开了

数独是长链精确计算的另一个压力测试。

神经网络方法在简单或随机数独上表现不错，但碰到难题直接崩溃。通常的解释是：自回归模型逐token提交答案、无法修正早期错误，天然不适合约束满足问题。

这项工作给出了不一样的答案：问题不在于自回归范式本身，而在于解难题需要极长的执行轨迹，而标准注意力机制让长上下文生成代价过高。

他们的系统在Transformer内部执行了一个编译好的数独求解器，达到了100%准确率，包括世界公认最难的Arto Inkala数独——在3分钟内给出正确答案。

保证是普适的：只要编译进去的求解器本身是正确的，Transformer的执行结果就是正确的。没有学习出来的启发式猜测，没有"模型建议答案"和"外部系统验证答案"之间的落差。

核心技术突破：指数级提速的注意力机制

方案要真正成立，还需要解决一个更深的工程障碍。

Transformer作为执行器有一个结构性缺陷：标准自回归解码让每一步都需要与不断增长的历史序列交互。真实计算机更新紧凑状态，每条指令的计算量近似恒定。Transformer生成第t个token时，还需要与长度为t的前缀交互——KV缓存节省了重新计算的开销，但扫描缓存的代价仍然随序列长度线性增长。

结果是：每步的计算量随轨迹长度线性增长，生成t个token的总代价是二次方的。这是Transformer的经典瓶颈。

研究团队的突破在于：他们发现，在执行轨迹这种结构化场景下，Transformer的注意力机制可以走一条完全不同的解码路径。

关键限制条件：将注意力头的维度限制为2维。

这一限制让事情发生了质变。

在2维情况下，注意力查询可以用几何的语言重新表述：所有历史token的键向量构成平面上的一个点集，每次查询等价于在这个集合上做一次最大内积检索——即在给定方向上找凸包上最远的点。这是计算几何中的经典问题，有对数时间复杂度的数据结构可以解决。

于是，标准解码中的线性扫描（对每个键逐一打分）被替换为凸包查询（维护一个几何数据结构，每次检索只需访问极少数点）。

效果是：每步解码从Θ(t)降到O(log t)。

实测结果中，HullKVCache与标准KVCache的每步耗时随序列长度的增长曲线，差距极为显著。

整个系统在CPU上的吞吐量超过每秒3万token，足以在数百万步内持续执行程序。