刚刚！超越Seedance2.0的模型居然开源了！-AI Express News

AIPress.com.cn报道

就在刚刚，拳打字节Seedance2.0，脚踢快手可灵的AI视频生成模型Happy Horse 1.0开源了。

目前在官网可通过文本生成和图片生成两种方式体验生成视频。不同模型对制作时长的限制各不相同。

可选4种模型。

Happy Horse 1.0的核心卖点，是把视频和音频的生成彻底合并进了同一个流程。大多数开源视频模型的工作方式是：先生成一段没有声音的视频，再找另一个模型配音，再找另一个工具做口型对齐，几道工序下来，时间和误差都在叠加。而Happy Horse 1.0用一个统一的Transformer同时处理视频和音频，一次前向推理直接输出带声音的成片，口型、脚步声、环境音全部在同一个过程里生成，不需要任何后期拼接。

模型参数量是150亿，架构上是纯自注意力Transformer，没有交叉注意力，没有独立的音频分支，也没有专门的条件网络。整体设计刻意追求极简——把所有模态（文本、图像、视频、音频）的token拼成同一个序列，让模型在去噪过程中自己学会跨模态对齐。

在结构上，40层Transformer采用了一种“三明治”布局：头4层和尾4层用模态专属的投影层处理各自的输入输出，中间32层则是所有模态共享参数。实际的跨模态推理就发生在这32层里，这也是整个架构参数效率最高的地方。此外，每个注意力头都有一个可学习的标量门控，用sigmoid激活，专门用来稳定多模态联合训练时的梯度——毕竟音频损失和视频损失同时反传，很容易互相打架。

速度方面，模型采用了DMD-2蒸馏技术（Distribution Matching Distillation v2），把去噪步数从通常的25到50步压缩到了8步，同时不需要无分类器引导（CFG），这一项本身就能砍掉将近一半的计算量。再配合MagiCompiler全图编译运行时带来的约1.2倍额外加速，在单张H100上，生成一段1080p视频只需要大约38秒，256p的预览版本则在2秒左右就能出来。

同时，模型原生支持英语、普通话、粤语、日语、韩语、德语和法语七种语言唇形同步，这些语言的口型、语调和语音时序是和视频一起联合训练出来的，不是后期贴上去的。

Happy Horse 1.0的公开亮相方式可谓是神秘感十足。它最早以匿名神秘模型的身份出现在 Artificial Analysis 视频竞技场排行榜上，和字节、Kling、Google等闭源商业产品同台竞技，靠盲测投票定排名。社区里有人注意到它似乎来自亚洲，带有原生音频生成能力，运动质量和最新版Kling处于同一梯队。到现在，它才正式公布自己的身份。

在开源视频模型的横向对比里，Happy Horse 1.0是目前唯一一个原生支持联合音视频生成的，其他主流开源模型，如Wan 2.2、HunyuanVideo、LTX-2、CogVideoX，全部只输出无声视频。在去噪步数和生成速度上，它也是同类里最激进的。

在Artificial Analysis的基准测试里，Happy Horse 1.0的视觉质量评分4.80，文本符合度4.18，物理逼真度4.52，三项指标都排在OVI 1.1和LTX 2.3前面。胜率上，对OVI 1.1是80%，对LTX 2.3是60.9%。

跟闭源商业服务比，Sora、Veo、Kling、Seedance这些都是按调用付费、不开放权重、不能自托管、不能微调。Happy Horse 1.0的权重完全开放，下载到自己的机器上就能跑，支持在自己的数据上微调，商用不受限制。参数量150亿，对比LTX 2.3的220亿，体量更小但综合测评分更高。

目前权重和推理代码尚未正式发布，仓库显示即将上线。已经可以在HappyHorse官网上用浏览器试用，不需要安装，不需要自备GPU，有免费额度可以测试文生视频、图生视频和音视频生成。

硬件方面，官方公布的基准测试数据基于单张NVIDIA H100（80GB显存）。A100 80GB同样可以跑完整质量，只是速度慢一些。RTX 4090这类消费级显卡的支持方案据说会在正式发布时一并公布，配合蒸馏模型和降分辨率设置应该能跑起来，但具体数据还没出来。

技术报告会随模型权重一起发布。

🔗相关链接：

1.HappyHorse GitHub:https://github.com/brooks376/Happy-Horse-1.0?tab=readme-ov-file#happy-horse-10

2.HappyHorse网站：https://happyhorses.io/zh/#deploy

3.HappyHorse官网（可生成视频）：https://happyhorse.video/zh