视频大模型黑马SkyReels V4异军突起，冲进Artificial Analysis榜单全球第2名-AI Express News

2 月 27 日，Skywork AI 正式发布多模态视频基础模型 SkyReels V4——全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。

该模型以双流多模态扩散 Transformer（MMDiT）为核心架构，实现了 1080p 分辨率、32 FPS 帧率、15 秒时长的影院级音视频同步生成，为专业创作者与普通用户提供了高效、精准、一体化的视频创作解决方案。在 Artificial Analysis 基准测试中，SkyReels V4 模型排名全球第二，超越Google Veo 3.1、OpenAI Sora 2、Wan 2.6等主流模型。

技术报告地址：https://arxiv.org/abs/2602.21818

权威 Benchmark 与实测双重认证，

SkyReels V4在多项权威评测中表现优异

Artificial Analysis 是一家专注于 AI 大模型和 API 提供商的独立分析机构，被业界誉为“AI 领域的 Gartner”，是当前全球AI大模型评测领域最具影响力的第三方独立机构之一。

它通过对模型的性能、价格、速度等进行标准化测试和横向对比，所有测试均由 Artificial Analysis 内部进行，而不依赖 AI 实验室自行报告的数据，其成果曾被 OpenAI、Anthropic、Google 等全球头部 AI 公司，受权威媒体认可和引用。

在 Artificial Analysis Arena 基准测试中，SkyReels V4 模型在 Text to Video（With Audio）领域 Current models 中全球排名第二（截至2月25日的评测结果），显著优于 Veo 3.1、Vidu Q3、Sora2、Wan 2.6 等主流模型：

同时，在 All models （包括所有历史模型在内）排行榜中，SkyReels V4模型位居第四。

榜单地址：https://artificialanalysis.ai/video/leaderboard/text-to-video?audio-output=true&include-non-current=true

此外，基于 2000+ 精选提示词的 SkyReels-VABench 人体评测中，SkyReels V4 模型在指令遵循、运动质量、多镜头叙事一致性三个维度得分第一。

实测数据显示，SkyReels V4 模型生成视频的视觉清晰度、运动流畅度、音频自然度均达到专业创作标准。

以 "多模态输入 + 全功能集成" 为核心，

覆盖多场景创作全流程

SkyReels V4 以 "多模态输入 + 全功能集成" 为核心，支持从创意激发到成品输出的全流程创作需求，关键能力包括：

1. 多模态精准控制

支持文本、图像、视频片段、掩码、音频参考等多种输入组合，可实现：

基于参考图像和参考音频的主体形象和音色的保持

Prompt：Through short-drama cinematography, the footage reveals an intimate moment of concern within a posh interior. The scene opens with a close-up of #Role_1 as she gazes thoughtfully off-camera, her expression slightly troubled. The perspective then shifts to a close-up of #Role_2 who holds a black smartphone to his ear. He speaks firmly into the phone, <dialogue>我说我现在回来。好。</dialogue>, his gaze fixed forward. Subsequently, the frame transitions to a wide shot of a luxurious hallway featuring cream walls, warm wall sconces, and a highly polished marble floor. #Role_1 and #Role_2 stand facing each other. The shot then switches to a medium close-up of #Role_2 as he lowers his phone, his brow furrowing with insistence as he says, <dialogue>那我让二妹过来，让她送你回去。</dialogue>. The camera cuts to a reverse angle of #Role_1, whose eyes widen slightly as she softly declines with a gentle shake of her head, <dialogue>不用，不用这么麻烦。</dialogue>. Finally, the perspective returns to #Role_2, who reaches out a hand toward her shoulder, his tone becoming resolute as a <bgm>low, rhythmic ambient track with a hint of dramatic tension</bgm> pulses in the background while he states, <dialogue>不行。</dialogue>.

输入参考图：

SkyReels V4生成视频：

Prompt：Produced at streaming drama standards, the footage presents a clinical interaction within a sterile hospital room. The video establishes a space where #Protagonist_A is captured in a close-up, looking attentively toward a patient off-screen. In the background, a framed landscape painting is softly blurred against a light blue wall. The shot switches to a reverse angle close-up focusing on #Protagonist_B , who lies back against white pillows. In a tired, slightly pleading tone, she looks at the doctor and says <dialogue>Look, I'm feeling much better now. I should probably just go home.</dialogue> Subsequently, the perspective shifts to an over-the-shoulder shot from behind #Protagonist_B's blurred shoulder, showing #Protagonist_A leaning forward. He reaches out a hand to gently touch #Protagonist_B's forearm, speaking in a calm, soothing voice <dialogue>Hey, hey, hey.</dialogue> The frame then cuts to a final reverse angle over #Protagonist_A's shoulder as he places his palm on #Protagonist_B's forehead to check her temperature. Behind #Protagonist_B, a dark electronic monitor is visible on the wall in the background. #Protagonist_B looks up at him with weary, concerned eyes as he states firmly but gently <dialogue>You're burning up. You have a fever.</dialogue> The scene is bathed in bright, even medical lighting, emphasizing the serious atmosphere of the patient's condition.

输入参考图：

SkyReels V4生成视频：

基于参考图片和参考运动的主体替换/动作迁移

Prompt：Replace the dancer in the middle of the stage in @video_1 with the wolf from @image_1, ensuring consistent movements.

输入参考图和视频：

@video_1

SkyReels V4生成视频：

2. 专业级视频修复

区域智能修复：精准替换视频中的主体、修改属性（如服装颜色、物体形状）、更换背景

参考引导修复：基于参考图像的风格一致性修复，确保编辑前后视觉统一

Prompt：Replace the right mask area in @video_1 with the cat from @image_1 and the left mask area in @video_1 with the woman from @image_2, ensuring a harmonious and natural scene.

输入参考图和参考视频：

@video_1（左人物为左遮挡区域；右人物为右遮挡区域）

SkyReels V4生成视频：

3. 全维度视频编辑

局部编辑：添加/删除视频中的物体、修改局部纹理与属性
元素智能移除：自动识别并去除水印、字幕、Logo，保持背景内容自然连贯
全局编辑：风格迁移（如乐高风、剪纸风）、场景属性调整（天气、光照、时段）
基于参考的编辑：基于形象和运动参考的动作迁移、基于形象的主体插入

Prompt：Change the man’s sleeveless shirt in @video_1 to a blue Polo shirt style.

输入原始视频：

@video_1

SkyReels V4生成视频：

Prompt：Add the girl from @ image_1 next to Ms. In @ video_1.

输入图片和参考视频：

@video_1

SkyReels V4生成视频：

4. 高品质音频生成

内置多语言语音合成、音效生成、背景音乐适配能力，尤其在中文语音合成上表现突出，支持情感语音、歌词同步演唱等高级功能，音频质量在信号清晰度、音色真实度、动态范围等指标上达到行业领先水平。

三大技术创新助力SkyReels V4异军突起

当前主流视频生成模型普遍存在模态割裂、功能分散、效率不足等问题：音视频合成多采用浅层融合导致同步性差，生成与编辑需切换多个工具，高分辨率长时长生成计算成本高昂。SkyReels V4 模型通过三大核心创新，实现了技术突破：

1. 双流 MMDiT 架构：音视频深度协同生成

SkyReels V4 采用对称双流架构设计，视频分支与音频分支共享基于多模态大语言模型（MLLM）的文本编码器，通过双向跨注意力机制实现全网络深度的视听同步。

其中，视频分支基于预训练文本到视频模型初始化，音频分支从零训练并保持架构对称，确保两种模态在特征维度、注意力结构上的一致性。

为解决音视频 temporal 尺度不匹配问题，模型采用 RoPE 频率缩放技术，将音频 RoPE 频率按视频帧与音频令牌的比例（44.1kHz，21/218≈0.09633）进行调整，实现精准的时间对齐。

在训练阶段，通过联合流匹配损失函数，让音视频分支在生成过程中相互引导，从根本上解决了唇形同步、音效对齐等行业痛点。

2. 统一拼接框架：一站式搞定全场景视频操作

针对生成、修复、编辑等多样化视频创作需求，SkyReels-V4 创新提出通道拼接（Channel-Concatenation）与时序拼接（Temporal-Concatenation）相结合的双维统一范式，通过“Z_input=TemporalConcat(ChannelConcat(V,I,M),Ref) ”的灵活输入形式，将各类任务统一转化为特定掩码配置下的修复问题，实现全场景任务无缝覆盖。

核心输入组件简明定义如下：

1. V：带噪声的视频隐向量，为任务基础载体；
2. I：VAE 编码后的条件帧（非条件帧填充黑色图像隐向量）；
3. M：二进制掩码（1=保留区域，0=生成/编辑区域）；
4. Ref：多模态参考隐向量集合（含图像、视频、音频等参考编码结果）。

基于上述组件配置，不同任务可被统一转化：

1. 文本到视频（T2V）：M全为0，基于文本从噪声V全帧生成；
2. 图像到视频（I2V）：仅首帧M=1（对应I中参考图像），后续帧延续生成；
3. 视频扩展：前k帧M=1，基于已有内容自然延伸后续画面；
4. 视频编辑：保留区域M=1、编辑区域M=0，结合Ref保障编辑一致性。

这种一体化设计打破了传统模型任务割裂的局限，让模型能够无缝支持多模态参考生成（含图像、视频、音频多维参考）、区域修复（主体替换、属性修改、背景更换）、元素智能移除（水印、字幕、Logo）、全片风格迁移、专业相机控制等全流程创作需求，无需切换工具即可完成从创意构思到成品输出的端到端创作，大幅提升创作效率与体验一致性。

3. 高效生成策略：平衡质量与速度的优化方案

为实现高分辨率长时长视频的高效生成，SkyReels V4 设计了 "低分辨率全序列 + 高分辨率关键帧" 联合生成策略：模型先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用超分辨率和帧插值模块重构高质量视频。

配合视频稀疏注意力（VSA）机制，在保持生成质量不变的前提下，将注意力计算成本降低约 3 倍，让 1080p/32FPS/15 秒视频生成具备实用价值。

此外，模型通过多阶段渐进式训练策略逐步提升能力：从 256px 文本到图像预训练，逐步扩展到 480/720/1080px 多分辨率训练，最终通过大规模多模态数据和精选高质量数据的微调，实现了视觉质量、运动流畅度、音频自然度的全面优化。

赋能全行业视频创作，SkyReels V4 标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 新阶段

当前，SkyReels V4 视频生成大模型的一体化创作能力已在多个场景落地应用。

例如广告营销：快速生成产品宣传视频，支持多风格切换与批量编辑；内容创作：短视频脚本可视化、Vlog 智能剪辑与修复、多语言配音同步；影视制作：前期概念可视化、镜头扩展、后期修复与局部编辑；教育培训：教学视频生成、课件可视化、多语言字幕自动同步等。

SkyReels V4 模型的发布，标志着 AI 视频生成技术从 "单一功能合成" 进入 "全流程一体化创作" 的新阶段。

展望未来，我们将持续在以下方向进行优化：扩展更长时长（60秒+）的视频生成能力；增强实时交互编辑功能，支持更精细的参数调节；开放模型 API 接口，与更多创作工具生态集成。

我们相信，SkyReels V4 将重新定义 AI 时代的视频创作流程，让专业级视频创作变得更高效、更便捷、更具创意。

最近一年，Skywork AI 已陆续发布并开源多个 SkyReels 模型，包括 SkyReels V1、SkyReels V2、SkyReels V3、SkyReels A1、SkyReels A2 和 SkyReels A3。

欢迎开源社区、AI机构组织、科研学者等AI从业者和开发者下载使用 SkyReels 系列模型：https://huggingface.co/Skywork。