MiniMax海螺首次开源，发现了AI视觉生成领域的Scaling Law-AI Express News

2025 年还有一周结束，年底，AI 视频圈又卷起来了。

今天我在 HuggingFace Daily Paper 上刷到一篇论文，vote 还很高，排到了当天第三名，仔细一看标题，讲的是视觉生成，作者竟然来自熟悉的老朋友 MiniMax。

论文地址：https://arxiv.org/html/2501.09755v1

顺着扒拉能看到，这个技术搞成开源的了。

熟悉的朋友都知道，MiniMax 今年已经是开源狂魔了，1 月开源 MiniMax-01，6 月开源 M1，11 月开源 M2…… 但有一个现象级产品，他们从来没开源过技术。

他就是海螺视频。

这次破天荒地开源了底层技术 ——「VTP（Visual Tokenizer Pre-training）」，是一个视觉分词器预训练框架。

更值得注意的是，论文里强调的一个发现：他们在 AI 视觉生成领域找到了 Scaling Law (缩放定律)。

在大语言模型领域，Scaling Law 早就是共识了，砸更多算力、数据、参数，模型就会变更强。

但是，在视觉生成领域一直没有找到这个规律。

而这，也是我第一次了解到，业内还有个广泛的 “悖论”——

视觉分词器（第一阶段）砸再多钱，生成模型（第二阶段）也不会变好，甚至还会变差。。

什么意思？

现在主流的视频生成模型像 Sora、海螺、可灵都是两阶段架构：

第一阶段：视觉分词器（Visual Tokenizer，通常是 VAE），把图像压缩成低维表示；
第二阶段：扩散模型（Diffusion Model），在这个低维空间里生成新内容。

按理说，第一阶段训练得越好，第二阶段应该效果越好才对。但实际情况却很诡异。。论文里展示了一组实验数据：

传统做法是，随着训练算力增加，重建质量（rFID）从 2.0 降到 0.5，越来越好。但是生成质量（gFID）却从 55.04 升到 58.56，反而变差了。就像你花大价钱买了顶级食材，但是做出来的菜更难吃了。

（加粗的两个概念很重要，请记住）

就因为这个悖论，才导致了在视频生成领域，砸钱训练视觉分词器 = 打水漂。

所以之前大家都放弃治疗了，第一阶段随便训练一下，把主要精力放在第二阶段的扩散模型上。

海螺怎么破局的？

海螺这次反其道而行之，把精力放在了第一阶段 —— 视觉分词器预训练上。

而且还解开了一个困扰行业多年的问题 —— 第一阶段的视觉分词器终于展现出了 Scaling Law。

请看这张图 ——

横轴是训练算力（GFLOPs），纵轴是生成质量 gFID（数值越低越好）。

灰色线代表传统的 Auto-Encoder，它几乎是一条水平线，即使算大扩大 10 倍，但是 gFID 基本没变，稳定卡在 55-58 之间。这就是之前说的 “打水漂” 现象。

但绿色线完全不一样。VTP 的曲线从左上角的 80 多，一路清晰地下降到右下角的 27 左右。

同样是扩大 10 倍算力，传统方法几乎没收益，而 VTP 能获得 65.8% 的性能提升。

这个数字可太关键了。它意味着投入和产出之间终于有了相对可预测的对应关系。

而且，scaling 不只体现在算力这一个维度。

左边是参数缩放 Parameter Scaling。传统 AE 的三条蓝色线 (Small/Base/Large) 几乎重叠在一起，无论模型大小，性能都卡在 57 上下，完全没有分层。而 VTP 的三条绿色线则清晰地分开了，肉眼可见地下降。

右上角是数据缩放 Data Scaling。AE 从 10 万数据训练到 1 亿数据，gFID 只从 58.37 微降到 56.71，几乎可以忽略。而绿色线则从 47.59 大幅下降到 27.45—— 数据越多，效果提升越明显。

右下角是训练过程的 scaling。蓝色线 AE 在 5B GFLOPs 之后就完全平了，而绿色线一路从 81 持续降到 27。

这三张子图放在一起，传达的信息非常明确了。

VTP 在算力、参数、数据三个维度上都展现出了显著的 scaling 特性。

这三组实验里第二阶段的扩散模型训练配置完全相同，所以改进都来自第一阶段视觉分词器的预训练。

所以不是第一阶段不能 scaling，而是方法不对。

那 VTP 是用了什么方法才有了 scaling 呢？为什么传统方法不行。

原因在于海螺团队发现了一个有意思的规律：

理解力是驱动生成的关键因素。

论文里有张图 ——

横轴表示理解能力，数值越高，说明模型越懂图像的语义。纵轴是生成质量 gFID，这里做了个 reversed 处理，所以数值越高代表生成越好。

灰色代表传统 AE，全部挤在左上角，意思就是理解和生成都停滞了。

绿色的点则相反地形成了一条漂亮的斜线，从左下角一路上扬到右上角 —— 理解能力从 20 多飙升到 70 多，生成质量也同步大幅改善。

这条斜线揭示了一个关键规律：理解能力和生成能力几乎是完美的正相关。

你让模型更 "懂" 图像，它就能生成得更好。反过来，如果只追求重建不追求理解，理解能力上不去，生成能力也永远卡在那里。

so，海螺在训练过程中注入了「理解」这个维度。也是整篇论文最核心的技术方法。

这里不得不提一下，之前的视觉分词器几乎只被要求做好一件事：重建。

就是给它一张图，它把图压缩，再尽可能一模一样地还原出来。还原得越像，loss 越低，训练就越成功。

所以你能感觉到，图像生成的分辨率越来越高，纹理越来越干净，边缘越来越锐利，连头发丝都越来越逼真。

但是这种训练目标，会悄悄把模型的注意力，全部引向低层细节（纹理、边缘、噪点、色块变化、像素之间的微小差异）。

这些东西，对 “还原一张图” 很重要，但对 “生成一段有意义的视频”，现在这个阶段，并没有那么重要了。

现在生成模型需要的是另一类信息：

这是一个人，他在跑，动作从左到右连续变化，背景是花园，这是一个 “跳跃” 的动作....

这些都是语义级、结构级的信息，而传统的重建训练，并不会主动去保留它们。

海螺在 VTP 里，让视觉分词器不仅学重建，还学理解。

因为设计了一个三管齐下的训练方案，整体架构可以就是这张图。

策略上做了三个 loss 的联合优化：

1.重建任务 (Reconstruction)

保留传统的图像压缩 - 还原训练，图像 → 编码 → token → 解码 → 像素还原，确保 latent 空间依然能稳定对应真实世界，保证基础质量。

2. 图文对比学习 (CLIP)

让模型学习图像和文本的语义对齐 —— 比如一只猫在草地上，这段文字和对应图像要在语义空间里靠近。这逼着模型去理解语义而不只是像素。

3. 自监督学习 (SSL)

包括两个技巧:

掩码图像建模 (MIM)：遮住图像的一部分，让模型预测被遮住的内容。和 NLP 里的掩码一个道理。
自蒸馏 (Self-distillation)：让模型的不同视角保持一致理解

这三个任务联合训练，逼着视觉分词器学会既能重建细节，又懂高层语义。

实际效果如何？论文也给出了详细的 benchmark:

从结果来看，VTP-L（Large 版本）是少数几个在“理解、重建、生成”三项指标上同时交出成绩的模型。

在理解能力上，VTP-L 的 ImageNet zero-shot 达到 78.2，Linear Probe 达到 85.7，已经接近部分主流判别式视觉模型。而这在过去几乎不会发生在一个 tokenizer 身上。

最后说一点：

大家都在盯着 Sora 2、可灵 2.6、Seedance 1.5 这些应用层的更新——更长的视频、更高的分辨率、音画同步，很重要。

但是技术革新更重要。否则没了地基，其他免谈。

Minimax 这篇论文不只适用于视觉生成，对整个多模态 AI 都有启发。模型不只是要完美还原，也需要语义级的深度理解。

海螺这次开源了完整的模型权重、训练代码和详细技术报告。

Codes：https://github.com/MiniMax-AI/VTP
Paper：https://arxiv.org/abs/2512.13687v1

以后第一阶段的 tokenizer 也不再是「拿来主义」，可以做更深入的研究。从这个角度看，VTP 的开源可能比某个新视频模型的发布更有长期价值。

原文链接https://mp.weixin.qq.com/s/_PkQV_3WGx7uwUZQ4bTN7g

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

MiniMax海螺首次开源，发现了AI视觉生成领域的Scaling Law

海螺怎么破局的？

请登录后发表评论