MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law

  1. 2025 年还有一周结束,年底,AI 视频圈又卷起来了。

今天我在 HuggingFace Daily Paper 上刷到一篇论文,vote 还很高,排到了当天第三名,仔细一看标题,讲的是视觉生成,作者竟然来自熟悉的老朋友 MiniMax。

图片[1]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

 

论文地址:https://arxiv.org/html/2501.09755v1

顺着扒拉能看到,这个技术搞成开源的了。

熟悉的朋友都知道,MiniMax 今年已经是开源狂魔了,1 月开源 MiniMax-01,6 月开源 M1,11 月开源 M2…… 但有一个现象级产品,他们从来没开源过技术。

他就是海螺视频。

这次破天荒地开源了底层技术 ——「VTP(Visual Tokenizer Pre-training)」,是一个视觉分词器预训练框架。

更值得注意的是,论文里强调的一个发现:他们在 AI 视觉生成领域找到了 Scaling Law (缩放定律)。

在大语言模型领域,Scaling Law 早就是共识了,砸更多算力、数据、参数,模型就会变更强。

但是,在视觉生成领域一直没有找到这个规律。

而这,也是我第一次了解到,业内还有个广泛的 “悖论”——

视觉分词器(第一阶段)砸再多钱,生成模型(第二阶段)也不会变好,甚至还会变差。。

什么意思?

现在主流的视频生成模型像 Sora、海螺、可灵都是两阶段架构:

  • 第一阶段:视觉分词器(Visual Tokenizer,通常是 VAE),把图像压缩成低维表示;
  • 第二阶段:扩散模型(Diffusion Model),在这个低维空间里生成新内容。

按理说,第一阶段训练得越好,第二阶段应该效果越好才对。但实际情况却很诡异。。论文里展示了一组实验数据:

传统做法是,随着训练算力增加,重建质量(rFID)从 2.0 降到 0.5,越来越好。但是生成质量(gFID)却从 55.04 升到 58.56,反而变差了。就像你花大价钱买了顶级食材,但是做出来的菜更难吃了。

(加粗的两个概念很重要,请记住)

图片[2]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

就因为这个悖论,才导致了在视频生成领域,砸钱训练视觉分词器 = 打水漂。

所以之前大家都放弃治疗了,第一阶段随便训练一下,把主要精力放在第二阶段的扩散模型上。

海螺怎么破局的?

海螺这次反其道而行之,把精力放在了第一阶段 —— 视觉分词器预训练上。

而且还解开了一个困扰行业多年的问题 —— 第一阶段的视觉分词器终于展现出了 Scaling Law。

请看这张图 ——

图片[3]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

横轴是训练算力(GFLOPs),纵轴是生成质量 gFID(数值越低越好)。

灰色线代表传统的 Auto-Encoder,它几乎是一条水平线,即使算大扩大 10 倍,但是 gFID 基本没变,稳定卡在 55-58 之间。这就是之前说的 “打水漂” 现象。

但绿色线完全不一样。VTP 的曲线从左上角的 80 多,一路清晰地下降到右下角的 27 左右。

同样是扩大 10 倍算力,传统方法几乎没收益,而 VTP 能获得 65.8% 的性能提升。

这个数字可太关键了。它意味着投入和产出之间终于有了相对可预测的对应关系。

而且,scaling 不只体现在算力这一个维度。

图片[4]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

左边是参数缩放 Parameter Scaling。传统 AE 的三条蓝色线 (Small/Base/Large) 几乎重叠在一起,无论模型大小,性能都卡在 57 上下,完全没有分层。而 VTP 的三条绿色线则清晰地分开了,肉眼可见地下降。

右上角是数据缩放 Data Scaling。AE 从 10 万数据训练到 1 亿数据,gFID 只从 58.37 微降到 56.71,几乎可以忽略。而绿色线则从 47.59 大幅下降到 27.45—— 数据越多,效果提升越明显。

右下角是训练过程的 scaling。蓝色线 AE 在 5B GFLOPs 之后就完全平了,而绿色线一路从 81 持续降到 27。

这三张子图放在一起,传达的信息非常明确了。

VTP 在算力、参数、数据三个维度上都展现出了显著的 scaling 特性。

这三组实验里第二阶段的扩散模型训练配置完全相同,所以改进都来自第一阶段视觉分词器的预训练。

所以不是第一阶段不能 scaling,而是方法不对。

那 VTP 是用了什么方法才有了 scaling 呢?为什么传统方法不行。

原因在于海螺团队发现了一个有意思的规律:

理解力是驱动生成的关键因素。

论文里有张图 ——

图片[5]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

横轴表示理解能力,数值越高,说明模型越懂图像的语义。纵轴是生成质量 gFID,这里做了个 reversed 处理,所以数值越高代表生成越好。

灰色代表传统 AE,全部挤在左上角,意思就是理解和生成都停滞了。

绿色的点则相反地形成了一条漂亮的斜线,从左下角一路上扬到右上角 —— 理解能力从 20 多飙升到 70 多,生成质量也同步大幅改善。

这条斜线揭示了一个关键规律:理解能力和生成能力几乎是完美的正相关。

你让模型更 "懂" 图像,它就能生成得更好。反过来,如果只追求重建不追求理解,理解能力上不去,生成能力也永远卡在那里。

so,海螺在训练过程中注入了「理解」这个维度。也是整篇论文最核心的技术方法。

这里不得不提一下,之前的视觉分词器几乎只被要求做好一件事:重建。

就是给它一张图,它把图压缩,再尽可能一模一样地还原出来。还原得越像,loss 越低,训练就越成功。

所以你能感觉到,图像生成的分辨率越来越高,纹理越来越干净,边缘越来越锐利,连头发丝都越来越逼真。

但是这种训练目标,会悄悄把模型的注意力,全部引向低层细节(纹理、边缘、噪点、色块变化、像素之间的微小差异)。

这些东西,对 “还原一张图” 很重要,但对 “生成一段有意义的视频”,现在这个阶段,并没有那么重要了。

现在生成模型需要的是另一类信息:

 

这是一个人,他在跑,动作从左到右连续变化,背景是花园,这是一个 “跳跃” 的动作....

这些都是语义级、结构级的信息,而传统的重建训练,并不会主动去保留它们。

海螺在 VTP 里,让视觉分词器不仅学重建,还学理解。

因为设计了一个三管齐下的训练方案,整体架构可以就是这张图。

图片[6]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

策略上做了三个 loss 的联合优化:

1.重建任务 (Reconstruction)

保留传统的图像压缩 - 还原训练,图像 → 编码 → token → 解码 → 像素还原,确保 latent 空间依然能稳定对应真实世界,保证基础质量。

2. 图文对比学习 (CLIP)

让模型学习图像和文本的语义对齐 —— 比如一只猫在草地上,这段文字和对应图像要在语义空间里靠近。这逼着模型去理解语义而不只是像素。

3. 自监督学习 (SSL)

包括两个技巧:

  • 掩码图像建模 (MIM):遮住图像的一部分,让模型预测被遮住的内容。和 NLP 里的掩码一个道理。
  • 自蒸馏 (Self-distillation):让模型的不同视角保持一致理解

这三个任务联合训练,逼着视觉分词器学会既能重建细节,又懂高层语义。

实际效果如何?论文也给出了详细的 benchmark:

图片[7]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

从结果来看,VTP-L(Large 版本)是少数几个在“理解、重建、生成”三项指标上同时交出成绩的模型

在理解能力上,VTP-L 的 ImageNet zero-shot 达到 78.2,Linear Probe 达到 85.7,已经接近部分主流判别式视觉模型。而这在过去几乎不会发生在一个 tokenizer 身上。

最后说一点:

大家都在盯着 Sora 2、可灵 2.6、Seedance 1.5 这些应用层的更新——更长的视频、更高的分辨率、音画同步,很重要。

但是技术革新更重要。否则没了地基,其他免谈。

Minimax 这篇论文不只适用于视觉生成,对整个多模态 AI 都有启发。模型不只是要完美还原,也需要语义级的深度理解。

海螺这次开源了完整的模型权重、训练代码和详细技术报告。

 

Codeshttps://github.com/MiniMax-AI/VTP

Paperhttps://arxiv.org/abs/2512.13687v1

以后第一阶段的 tokenizer 也不再是「拿来主义」,可以做更深入的研究。从这个角度看,VTP 的开源可能比某个新视频模型的发布更有长期价值。

图片[8]-MiniMax海螺首次开源,发现了AI视觉生成领域的Scaling Law-AI Express News

原文链接https://mp.weixin.qq.com/s/_PkQV_3WGx7uwUZQ4bTN7g

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容