殊途同归的第三条道路：DeepSeek用数学推导，撞上了Google的工程直觉-AI Express News

Gemma 3n 的技术黑盒，被 DeepSeek 的两篇新论文解开了。

图片[2]-殊途同归的第三条道路：DeepSeek用数学推导，撞上了Google的工程直觉-AI Express News 图片[5]-殊途同归的第三条道路：DeepSeek用数学推导，撞上了Google的工程直觉-AI Express News

Google 在 2025 年 6 月发布 Gemma 3n 的时候，业界的反应分化极其严重。

工程界惊叹于它在端侧设备上的极致压缩能力，但学术界对其中 PLE (Per-Layer Embeddings) 和 AltUp 等非主流设计其实是存疑的，它们像是一个为了在手机上硬跑大模型而拼凑出的工程妥协。

直到半年后的今天。

2026 年 1 月，DeepSeek 接连发布了 mHC [1] 和 Engram [2] 两篇重磅论文。

细读这两项研究的核心——U 型 Scaling Law 与流形约束（Manifold Constraints），我们不难发现：

DeepSeek 在论文中推导出的最优架构形态，与 Google 半年前凭工程直觉摸索出的 Gemma 3n 展现出了惊人的内在一致性。

Google 的 PLE，在机理上高度契合 DeepSeek 证明高效的 Engram 模式；

Google 的 AltUp，则在工程上构成了 DeepSeek mHC 理论中宽网络约束的一个稀疏特例。

这并非巧合，而是技术演进的殊途同归。DeepSeek 的新论文，为 Gemma 3n 提供了最硬核的理论背书。

Google 凭直觉做对了题，而 DeepSeek 在半年后给出了推导过程。

这篇文章，试图用 DeepSeek 的最新理论视角，拆解 Gemma 3n 的工程黑盒，看看这两个顶尖团队是如何在不同的时间点，不约而同地踏上了大模型架构的第三条道路。

图片[2]-殊途同归的第三条道路：DeepSeek用数学推导，撞上了Google的工程直觉-AI Express News

图片[5]-殊途同归的第三条道路：DeepSeek用数学推导，撞上了Google的工程直觉-AI Express News

静态记忆的Scaling Law

Gemma 3n 架构中最具争议的设计，就是它的 Embedding 处理方式。

Gemma 3n 并没有遵循标准 Transformer 将 Embedding 仅限于输入/输出层的惯例，而是将大量参数分配给了每一层的静态 Embedding 表（本文将其架构特性概括为 PLE, Per-Layer Embeddings）。

在 Google 的工程叙事中，这是为了利用 NPU/CPU 异构计算，结合 Conditional parameter loading 技术，将 2B+ 的 PLE 参数卸载到系统内存中，仅保留核心的 MLP/Attention 在 NPU 上高速运行。

〓图1. Gemma 3n 的参数分布与有效内存负载对比。

该图数据表明，通过 PLE 技术，模型得以将大量参数卸载至系统内存，仅保留核心参数在计算单元中，实现了极高的参数利用效率。

DeepSeek 的 Engram 论文不仅证明了这种设计能省内存，更通过清晰的结构图解，揭示了这种设计的理论原型。

1.1 机理还原

Engram 并非传统的 N-gram 统计表，而是一个可微的神经组件。

DeepSeek 在论文开篇展示了其核心理念，将传统的 N-gram 查表操作现代化，使其能够作为一种条件记忆（Conditional Memory）被整合进神经网络。

〓图2. Engram 的概念模型。它展示了如何将离散的 N-gram 统计信息转化为可微的 Embedding 查找操作，从而弥补 Transformer 在知识检索上的短板。

更进一步，DeepSeek 展示了 Engram 如何被集成到 Transformer Block 中。这实际上是一个双通路架构：

通路 A（神经网络）：负责复杂的推理和泛化（对应 Gemma 3n 的 NPU 计算层）。

通路 B（Engram/PLE）：负责通过的查表操作，直接检索精确的知识（对应 Gemma 3n 的 RAM 存储层）。

这两个通路在每一层进行融合。这解释了 Gemma 3n 的 PLE 为何能生效，它实际上是在 Transformer 的每一层外挂了一个知识硬盘，通过查表直接注入信息，而无需动用昂贵的 MLP 权重去记忆这些事实。

〓图3. Engram 模块的集成架构示意图。左侧为标准 Transformer 层（计算），右侧为 Engram 模块（存储）。

通过简单的查表（Lookup）和投影（Projection），静态记忆被无缝融入到神经网络的隐状态流中。这正是 Gemma 3n PLE 机制的数学解剖图。

1.2 寻找 Loss 的最低点：U 型曲线

在理解了结构之后，DeepSeek 进一步提出了 Sparsity Allocation（稀疏分配）问题。

通过大规模实验，DeepSeek 发现当模型总参数量固定时，静态记忆参数（Engram/PLE）与动态计算参数（MLP/Attention）的比例对模型性能有决定性影响。

实验曲线显示，随着静态参数占比的增加，模型的验证集 Loss 呈现出清晰的 U 型 Scaling Law。

实验数据表明，最佳的静态参数占比并非为 0，而是落在了 10% - 30% 的区间（具体取决于总参数规模）。

这意味着，将相当大比例的参数预算分配给“死记硬背”（查表），不仅不低效，反而能释放神经网络的计算能力去处理更复杂的逻辑。

〓图2. 横轴为 Engram（静态参数）占比，纵轴为 Validation Loss。

可以看到曲线呈现清晰的 U 型，最低点并非纯 MLP 模型，而是混合架构。这从理论上背书了 Gemma 3n 分配大量参数给 PLE 的合理性。

1.3 层级化是关键

Gemma 3n 的 PLE 强调分层挂载（Per-Layer）。DeepSeek 的研究不仅解释了能不能做，还解释了必须怎么做。

DeepSeek 在 Engram 论文的消融实验中指出，插入位置对性能至关重要：

如果仅像传统 N-gram 模型那样在 Input Layer (Layer 0) 引入查表，由于模型尚未建立足够的语义上下文来进行有效的门控（Gating），对模型性能的提升微乎其微。
只有将 Engram 分布在中间层，利用深层网络产生的 Context 来指导静态知识的检索与融合，才能显著降低 PPL（困惑度）。

这解释了为什么 Gemma 3n 必须把 PLE 做得如此复杂，分散挂载在每一个 Transformer Block 上。

在计算逻辑上，DeepSeek 指出 Engram 的核心优势在于上下文感知门控（Context-aware Gating）。

DeepSeek 采用了一种高效的对数概率融合机制，直接将 Engram 查表得到的 Logits，经过门控加权后，叠加到神经网络输出的 Logits 上。

这种机制避免了复杂的概率插值计算，完美对应了 Gemma 3n 在推理时一边算神经网络，一边查表，最后加权融合的工程逻辑。

〓图3. Engram 门控机制的可视化。红色区域表示门控激活，意味着模型在处理特定词组（如实体名）时，会高度依赖静态记忆表的查表结果，而非神经网络的推理。

宽度的边界

除了记忆，Gemma 3n 的另一大特性是“宽”。为了在端侧并行加速，Gemma 3n 被广泛认为使用了类似 AltUp (Alternating Updates) [3] 的技术来扩展模型宽度。

DeepSeek 的 mHC 论文虽然探讨的是更通用的超宽网络训练问题，但其理论框架完美解释了 Gemma 3n 这种宽架构的设计边界。

2.1 什么是宽网络及其代价？

DeepSeek 在论文开篇定义了 Hyper-Connections (HC)，这是一种打破传统残差网络（ResNet）宽度限制的架构。

通过极大地扩展残差流的宽度，模型可以获得极高的并行处理能力和容量。

〓图4. Hyper-Connections (HC) 架构与传统残差连接的对比。

HC 通过显著扩展残差层的宽度来增加模型容量，这与 Gemma 3n 追求端侧并行计算的设计思路不谋而合。

然而，DeepSeek 指出这种设计有一个致命缺陷。当宽度过大时，会破坏恒等映射 (Identity Mapping) 的方差属性。

如果不加控制，深层网络的信号方差会急剧增大，导致 Jacobian 矩阵奇异值分布失控。

下图清晰展示了这种崩塌现象。

〓图4. 左图显示普通宽网络随着深度增加，训练 Loss 和梯度迅速发散；右图显示引入流形约束（Manifold Constraint）后，模型训练保持稳定。

2.2 AltUp 的稀疏近似

面对“宽度扩展带来的训练崩塌”这一难题，Google 在 AltUp 论文中给出了一种工程化的规避方案。

为了解决计算量和稳定性的双重问题，AltUp 采用了一种预测-校正（Predictor-Corrector）机制。

它并没有真的去全量计算一个超宽的稠密矩阵，而是将宽向量切分为多个 Block。每一轮推理时，先预测出哪些 Block 是活跃的，再只计算这些 Block。

这种稀疏性在工程上起到了关键作用，它物理上限制了残差分支的能量，隐式地防止了方差爆炸。这是一种“因为算不过来所以只算一点点，结果反而意外解决了稳定性问题”的经典工程案例。

〓图5. AltUp 的 Predict-and-Compute 流程示意图。原本 d 维的宽向量被隐式操作，通过扩展算子（Up-projection）和稀疏修正来模拟宽网络的效果。

2.3 mHC 的流形约束

DeepSeek 选择了直面这个问题。mHC 提出，如果我们真想训练一个稠密的超宽网络，就必须给权重矩阵加上流形约束。

其核心思想是将权重矩阵投影到 Stiefel 流形（）或其他特定的流形上，以控制奇异值分布。

DeepSeek 在论文的方法论部分详细推导了这一过程，在每次参数更新后，显式地执行一步投影操作（例如使用 Sinkhorn-Knopp 算法进行归一化），将权重矩阵投射回流形约束面。

这一操作强行矫正了权重矩阵的性质，从而将 Jacobian 矩阵的奇异值拉回到 1 附近，在根本上恢复了宽网络的恒等映射属性，保证了训练的稳定性。

DeepSeek 的结论极具前瞻性，AltUp 可以被视为“宽网络”的一种稀疏特例，而 mHC 给出了驾驭“宽网络”的通用数学法则。

未来我们或许不再需要 AltUp 这种复杂的稀疏掩码技巧，也能训练出极宽、极浅、推理极快的主干网络。

弹性推理的终局

Gemma 3n 的最后一块技术拼图是 MatFormer [4]。

在 Gemma 3n Model Overview 文档 [5] 中，Google 明确展示了其“套娃”特性，指出 "E4B model contains the parameters of the E2B model"（4B 模型包含了 2B 模型的参数）。

这一设计的理论源头正是 MatFormer 论文。其核心思想是 Matryoshka（俄罗斯套娃）结构，在训练阶段，不再训练一个单一尺寸的模型，而是针对一个包含多个嵌套子模型的超网进行联合优化。

MatFormer 的核心创新在于重新定义了 Transformer Block 的内部结构。论文展示了嵌套前馈网络（Nested FFN）的设计原理：

〓图6. MatFormer 的架构原理图。左侧展示了 MatFormer Block 内部的嵌套 FFN 设计，权重矩阵被物理划分为多个层级；右侧展示了训练和推理时的“Mix'n'Match”机制，即不同层级的小模型可以直接从大模型中提取出来使用。

它将 FFN 的隐藏层神经元划分为多个嵌套的粒度：

核心粒度：包含前个神经元，对应最小的子模型。
扩展粒度：包含前个神经元，对应更大的模型。

这种物理上的包含关系（），使得推理引擎可以像剥洋葱一样，根据算力需求物理地切出所需的参数块进行计算，而无需加载整个模型。

为了让套娃里的每一层都好用，MatFormer 在训练时引入了一种特殊的联合优化机制。

论文指出，训练的过程是随机采样不同的子模型，并针对选定的子模型计算 Loss。这意味着训练目标是同时最小化所有嵌套子网络（Sub-models）的 Loss。

这种训练方式强制模型将最重要的通用知识压缩在最核心的参数区间（如前几百个神经元），而将细节知识分布在扩展参数中。

这解释了为什么 Gemma 3n 能够实现 "Select parameters and assemble models in intermediate sizes"，从而在 2B 到 4B 之间实现弹性的性能缩放。

DeepSeek 的 mHC、Engram 与 Google 的 Gemma 3n，实际上是在不同时间点，分别给出了端侧 AI 不可能三角的最优解。

容量（Capacity）：DeepSeek mHC 证明了通过流形约束，我们可以训练极宽的线性层，配合 Google AltUp 的稀疏实现，解决了超大容量与有限算力的矛盾。

记忆（Memory）：DeepSeek Engram 证明了静态查表的高效性，配合 Google PLE 的内存卸载技术，解决了海量知识与有限显存的矛盾。

适应性（Adaptability）：MatFormer 证明了嵌套权重及其联合优化机制，解决了单一模型与碎片化硬件的矛盾。

结语

DeepSeek mHC 与 Engram 的发表，向行业释放了一个明确信号，单纯靠暴力堆叠参数的收益可能已经见顶了。

Google 在 2025 年的 Gemma 3n 上验证了“计算与存储分离”在工程上能跑通，而 DeepSeek 在 2026 年初通过数学推导证明了这条路不仅能走，而且效率更高。

这种殊途同归表明，未来的端侧模型架构正在发生质变。它可能不再是一个浑然一体的黑盒神经网络，而是演变成“逻辑核心（NPU）+ 静态知识库（RAM）”的精密组合。

参考文献

[1] Xie, Z., Wei, Y., Cao, H., et al. "mHC: Manifold-Constrained Hyper-Connections". arXiv preprint arXiv:2512.24880v2, 2026.

[2] Cheng, X., Zeng, W., Dai, D., et al. "Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models". DeepSeek-AI, 2026. https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

[3] Baykal, C., Cutler, D., Dikkala, N., et al. "Alternating Updates for Efficient Transformers". arXiv preprint arXiv:2301.13310v2, 2023.

[4] Devvrit, Kudugunta, S., Kusupati, A., et al. "MatFormer: Nested Transformer for Elastic Inference". arXiv preprint arXiv:2310.07707v2, 2023.

[5] Google AI for Developers. "Gemma 3n Model Overview & Documentation". 2025.

[6] Google Developers Blog. "Introducing Gemma 3n: A developer guide to the most efficient open model for on-device AI". 2025.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注