视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名

2 月 27 日,Skywork AI 正式发布多模态视频基础模型 SkyReels V4——全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

该模型以双流多模态扩散 Transformer(MMDiT)为核心架构,实现了 1080p 分辨率、32 FPS 帧率、15 秒时长的影院级音视频同步生成,为专业创作者与普通用户提供了高效、精准、一体化的视频创作解决方案。在 Artificial Analysis 基准测试中,SkyReels V4 模型排名全球第二,超越Google Veo 3.1、OpenAI Sora 2、Wan 2.6等主流模型。

图片[1]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

技术报告地址:https://arxiv.org/abs/2602.21818

01

权威 Benchmark 与实测双重认证,

SkyReels V4在多项权威评测中表现优异

 

Artificial Analysis 是一家专注于 AI 大模型和 API 提供商的独立分析机构,被业界誉为“AI 领域的 Gartner”,是当前全球AI大模型评测领域最具影响力的第三方独立机构之一。

它通过对模型的性能、价格、速度等进行标准化测试和横向对比,所有测试均由 Artificial Analysis 内部进行,而不依赖 AI 实验室自行报告的数据,其成果曾被 OpenAI、Anthropic、Google 等全球头部 AI 公司,受权威媒体认可和引用。

在 Artificial Analysis Arena 基准测试中,SkyReels V4 模型在 Text to Video(With Audio)领域 Current models 中全球排名第二(截至2月25日的评测结果),显著优于 Veo 3.1、Vidu Q3、Sora2、Wan 2.6 等主流模型:

图片[2]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

同时,在 All models (包括所有历史模型在内)排行榜中,SkyReels V4模型位居第四。

图片[3]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

榜单地址:https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true&include-non-current=true

此外,基于 2000+ 精选提示词的 SkyReels-VABench 人体评测中,SkyReels V4 模型在指令遵循、运动质量、多镜头叙事一致性三个维度得分第一。

实测数据显示,SkyReels V4 模型生成视频的视觉清晰度、运动流畅度、音频自然度均达到专业创作标准。

 

02

以 "多模态输入 + 全功能集成" 为核心,

覆盖多场景创作全流程

 

SkyReels V4 以 "多模态输入 + 全功能集成" 为核心,支持从创意激发到成品输出的全流程创作需求,关键能力包括:

1. 多模态精准控制

支持文本、图像、视频片段、掩码、音频参考等多种输入组合,可实现:

  • 基于参考图像和参考音频的主体形象和音色的保持

Prompt:Through short-drama cinematography, the footage reveals an intimate moment of concern within a posh interior. The scene opens with a close-up of #Role_1  as she gazes thoughtfully off-camera, her expression slightly troubled. The perspective then shifts to a close-up of #Role_2 who holds a black smartphone to his ear. He speaks firmly into the phone, <dialogue>我说我现在回来。好。</dialogue>, his gaze fixed forward. Subsequently, the frame transitions to a wide shot of a luxurious hallway featuring cream walls, warm wall sconces, and a highly polished marble floor. #Role_1 and #Role_2 stand facing each other. The shot then switches to a medium close-up of #Role_2 as he lowers his phone, his brow furrowing with insistence as he says, <dialogue>那我让二妹过来,让她送你回去。</dialogue>. The camera cuts to a reverse angle of #Role_1, whose eyes widen slightly as she softly declines with a gentle shake of her head, <dialogue>不用,不用这么麻烦。</dialogue>. Finally, the perspective returns to #Role_2, who reaches out a hand toward her shoulder, his tone becoming resolute as a <bgm>low, rhythmic ambient track with a hint of dramatic tension</bgm> pulses in the background while he states, <dialogue>不行。</dialogue>.

输入参考图:

图片[4]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

SkyReels V4生成视频:

Prompt:Produced at streaming drama standards, the footage presents a clinical interaction within a sterile hospital room. The video establishes a space where #Protagonist_A is captured in a close-up, looking attentively toward a patient off-screen. In the background, a framed landscape painting is softly blurred against a light blue wall. The shot switches to a reverse angle close-up focusing on #Protagonist_B , who lies back against white pillows. In a tired, slightly pleading tone, she looks at the doctor and says <dialogue>Look, I'm feeling much better now. I should probably just go home.</dialogue> Subsequently, the perspective shifts to an over-the-shoulder shot from behind #Protagonist_B's blurred shoulder, showing #Protagonist_A leaning forward. He reaches out a hand to gently touch #Protagonist_B's forearm, speaking in a calm, soothing voice <dialogue>Hey, hey, hey.</dialogue> The frame then cuts to a final reverse angle over #Protagonist_A's shoulder as he places his palm on #Protagonist_B's forehead to check her temperature. Behind #Protagonist_B, a dark electronic monitor is visible on the wall in the background. #Protagonist_B looks up at him with weary, concerned eyes as he states firmly but gently <dialogue>You're burning up. You have a fever.</dialogue> The scene is bathed in bright, even medical lighting, emphasizing the serious atmosphere of the patient's condition.

输入参考图:

图片[5]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

 

SkyReels V4生成视频:

  • 基于参考图片和参考运动的主体替换/动作迁移

Prompt:Replace the dancer in the middle of the stage in @video_1 with the wolf from @image_1, ensuring consistent movements.

输入参考图和视频:

图片[6]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

@video_1

SkyReels V4生成视频:

 

2. 专业级视频修复

  • 区域智能修复:精准替换视频中的主体、修改属性(如服装颜色、物体形状)、更换背景

  • 参考引导修复:基于参考图像的风格一致性修复,确保编辑前后视觉统一

 

Prompt:Replace the right mask area in @video_1 with the cat from @image_1 and the left mask area in @video_1 with the woman from @image_2, ensuring a harmonious and natural scene. 

输入参考图和参考视频:

图片[7]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

@video_1(左人物为左遮挡区域;右人物为右遮挡区域)

SkyReels V4生成视频:

 

3. 全维度视频编辑

  • 局部编辑:添加/删除视频中的物体、修改局部纹理与属性

  • 元素智能移除:自动识别并去除水印、字幕、Logo,保持背景内容自然连贯

  • 全局编辑:风格迁移(如乐高风、剪纸风)、场景属性调整(天气、光照、时段)

  • 基于参考的编辑:基于形象和运动参考的动作迁移、基于形象的主体插入

     

Prompt:Change the man’s sleeveless shirt in @video_1 to a blue Polo shirt style. 

输入原始视频:

@video_1

 

SkyReels V4生成视频:

Prompt:Add the girl from @ image_1 next to Ms. In @ video_1.

输入图片和参考视频:

图片[8]-视频大模型黑马SkyReels V4异军突起,冲进Artificial Analysis榜单全球第2名-AI Express News

 

@video_1

 

SkyReels V4生成视频:

4. 高品质音频生成

内置多语言语音合成、音效生成、背景音乐适配能力,尤其在中文语音合成上表现突出,支持情感语音、歌词同步演唱等高级功能,音频质量在信号清晰度、音色真实度、动态范围等指标上达到行业领先水平。

 

03

三大技术创新助力SkyReels V4异军突起

当前主流视频生成模型普遍存在模态割裂、功能分散、效率不足等问题:音视频合成多采用浅层融合导致同步性差,生成与编辑需切换多个工具,高分辨率长时长生成计算成本高昂。SkyReels V4 模型通过三大核心创新,实现了技术突破:

 

1. 双流 MMDiT 架构:音视频深度协同生成

SkyReels V4 采用对称双流架构设计,视频分支与音频分支共享基于多模态大语言模型(MLLM)的文本编码器,通过双向跨注意力机制实现全网络深度的视听同步。

其中,视频分支基于预训练文本到视频模型初始化,音频分支从零训练并保持架构对称,确保两种模态在特征维度、注意力结构上的一致性。

为解决音视频 temporal 尺度不匹配问题,模型采用 RoPE 频率缩放技术,将音频 RoPE 频率按视频帧与音频令牌的比例(44.1kHz,21/218≈0.09633)进行调整,实现精准的时间对齐。

在训练阶段,通过联合流匹配损失函数,让音视频分支在生成过程中相互引导,从根本上解决了唇形同步、音效对齐等行业痛点。

 

2. 统一拼接框架:一站式搞定全场景视频操作

针对生成、修复、编辑等多样化视频创作需求,SkyReels-V4 创新提出通道拼接(Channel-Concatenation)与时序拼接(Temporal-Concatenation)相结合的双维统一范式,通过“Z_input=TemporalConcat(ChannelConcat(V,I,M),Ref) ”的灵活输入形式,将各类任务统一转化为特定掩码配置下的修复问题,实现全场景任务无缝覆盖。

核心输入组件简明定义如下:

1. V:带噪声的视频隐向量,为任务基础载体;

2. I:VAE 编码后的条件帧(非条件帧填充黑色图像隐向量);

3. M:二进制掩码(1=保留区域,0=生成/编辑区域);

4. Ref:多模态参考隐向量集合(含图像、视频、音频等参考编码结果)。

 

基于上述组件配置,不同任务可被统一转化:

1. 文本到视频(T2V):M全为0,基于文本从噪声V全帧生成;

2. 图像到视频(I2V):仅首帧M=1(对应I中参考图像),后续帧延续生成;

3. 视频扩展:前k帧M=1,基于已有内容自然延伸后续画面;

4. 视频编辑:保留区域M=1、编辑区域M=0,结合Ref保障编辑一致性。

 

这种一体化设计打破了传统模型任务割裂的局限,让模型能够无缝支持多模态参考生成(含图像、视频、音频多维参考)、区域修复(主体替换、属性修改、背景更换)、元素智能移除(水印、字幕、Logo)、全片风格迁移、专业相机控制等全流程创作需求,无需切换工具即可完成从创意构思到成品输出的端到端创作,大幅提升创作效率与体验一致性。

 

3. 高效生成策略:平衡质量与速度的优化方案

为实现高分辨率长时长视频的高效生成,SkyReels V4 设计了 "低分辨率全序列 + 高分辨率关键帧" 联合生成策略:模型先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用超分辨率和帧插值模块重构高质量视频。

配合视频稀疏注意力(VSA)机制,在保持生成质量不变的前提下,将注意力计算成本降低约 3 倍,让 1080p/32FPS/15 秒视频生成具备实用价值。

此外,模型通过多阶段渐进式训练策略逐步提升能力:从 256px 文本到图像预训练,逐步扩展到 480/720/1080px 多分辨率训练,最终通过大规模多模态数据和精选高质量数据的微调,实现了视觉质量、运动流畅度、音频自然度的全面优化。

 

04

赋能全行业视频创作,SkyReels V4 标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 新阶段

当前,SkyReels V4 视频生成大模型的一体化创作能力已在多个场景落地应用。

例如广告营销:快速生成产品宣传视频,支持多风格切换与批量编辑;内容创作:短视频脚本可视化、Vlog 智能剪辑与修复、多语言配音同步;影视制作:前期概念可视化、镜头扩展、后期修复与局部编辑;教育培训:教学视频生成、课件可视化、多语言字幕自动同步等。

SkyReels V4 模型的发布,标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 的新阶段。

展望未来,我们将持续在以下方向进行优化:扩展更长时长(60秒+)的视频生成能力;增强实时交互编辑功能,支持更精细的参数调节;开放模型 API 接口,与更多创作工具生态集成。

我们相信,SkyReels V4 将重新定义 AI 时代的视频创作流程,让专业级视频创作变得更高效、更便捷、更具创意。

最近一年,Skywork AI 已陆续发布并开源多个 SkyReels 模型,包括 SkyReels V1、SkyReels V2、SkyReels V3、SkyReels A1、SkyReels A2 和 SkyReels A3。

欢迎开源社区、AI机构组织、科研学者等AI从业者和开发者下载使用 SkyReels 系列模型:https://huggingface.co/Skywork

往期推荐
 SkyReels-V3开源
 Mureka V8重磅发布
 SkyReels-V2开源
 SkyReels-A3模型发布
 SkyReels系列开源模型HuggingFace下载量超25万

<原文链接:https://mp.weixin.qq.com/s/T1hlZCX4JRtLmooiSLTIjg

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容