视频生成进入“全能”时代：昆仑万维SkyReels-V3开源，覆盖参考图像转视频、视频延长、音频驱动虚拟形象三大核心能力-AI Express News

1月29日，Skywork AI正式开源自研视频生成模型SkyReels-V3。作为一系列多模态视频生成模型，该系列支持参考图像转视频（Reference Images-to-Video）、视频延长（Video Extension）和音频驱动虚拟形象（Talking Avatar）三大核心能力，在单一建模架构中实现高保真多模态视频生成，达到行业领先水平。

三大核心能力作为独立模块，每个模块深度优化且支持灵活组合。Skywork AI团队通过企业级数据处理、极速推理能力和高效的训练架构等技术实现，让生成的视频达到专业级效果，多项指标达到或超越行业领先水平。

SkyReels-V3现已开源，期待与你共创无限可能！

1. GitHub：https://github.com/SkyworkAI/SkyReels-V3

2. API（限时免费）：https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar

参考图像转视频（Reference Images-to-Video）：让静态图像"活"起来

SkyReels-V3可根据1至4张参考图像，并结合文本提示，生成时间连贯、语义一致的高质量视频序列。无论是人物形象、商品展示还是背景场景，生成的视频都能精准保留原始身份特征、空间构图和叙事连贯性。

其背后是Skywork AI团队在数据构建、多参考条件融合和混合训练策略上的多重技术创新：

1. 高质量数据构建：团队从海量视频中筛选具有显著动态运动的素材，并采用跨帧配对策略确保时间多样性。更为关键的是，利用图像编辑模型对主体区域进行提取、背景补全和语义重写，有效避免了常见的“复制粘贴”伪影，从数据源头保障了生成质量。

2. 多参考条件融合：模型采用统一的策略联合编码视觉和文本信息，最多支持4张参考图像。这意味着用户无需进行复杂的图像拼接或手动蒙版，即可实现复杂多主体、多元素的自然交互与场景组合。例如，在电商场景中，可将商品图与虚拟主播形象结合，直接生成一段在特定环境下的带货视频，精准保留商品细节与主播身份特征。

3. 混合训练策略：团队利用图像-视频混合训练，联合利用大规模图像和视频数据集，且利用多分辨率联合优化提升不同空间尺度和宽高比的鲁棒性。

在包含200对混合测试集（涵盖电影电视、电商、广告等多领域）的评估中，SkyReels-V3展现出卓越的性能表现。

面对人物、动物、物体和背景场景等多种参考类型，SkyReels-V3在参考一致性指标上达到0.6698，超越Vidu Q2（0.5961）、Kling 1.6（0.6630）和PixVerse V5（0.6542）等主流商用模型；在视觉质量指标上更以0.8119的得分领先全场，证明了其在保持参考特征的同时生成高保真视频的强大能力。

图丨SkyReels-V3与行业SOTA模型在多主体参考视频生成上的定量指标对比

输入图片与prompt：

在现代都市风格的办公室里，镜头聚焦在一位身穿羊毛大衣的模特身上，她轻轻地整理领子，系好腰带。阳光照亮了大衣，增添了几分温暖和优雅。

SkyReels-V3可以组合多种素材，一键生成电商场景广告展示视频：

输入图片与prompt：

a man sitting in the office, a cat sitting beside him.

SkyReels-V3能够生成任意场景下不同人物/物体互动视频：

视频延长（Video Extension）：

突破时长限制，扩展叙事边界

SkyReels-V3视频延长模型可将输入视频片段延伸为时间连贯、语义一致的后续内容，在文本指导下保持运动动态、场景结构和视觉风格。未来有望应用在电影/电视内容创作、短视频系列制作、游戏过场动画和长视频增强等领域。

首先，其支持“双模式延长”功能。传统视频延长技术大多局限于简单拉长时间维度，而SkyReels-V3的视频延长功能实现了质的飞跃。它基于视频语义和用户Prompt，能够智能预测下一个镜头的合理延续与场景内容，使视频创作从“时间扩展”升级为“叙事扩展”。

这一功能提供两种专业模式：单镜头延长模式保持原有视角和叙事连贯性，实现平滑的镜头延续；而更具创新性的镜头切换延长模式则支持五种专业转场技术，包括切入（Cut In）、切出（Cut Out）、多角度（Multi Angle）、正反镜头（Shot/Reverse Shot）和切离（Cut Away）等专业电影转场手法。这意味着用户可以从一个简单的短视频片段出发，通过智能镜头扩展，构建出具有完整叙事结构的专业级视频内容。

此外，模型中内置智能镜头切换检测器，能够自动分析长视频中的转场点，识别并分类不同的转场类型。SkyReels-V3视频延长功能支持多种输出配置，包括480p/720p分辨率，1:1、3:4、4:3、16:9、9:16等多种宽高比，满足不同平台的发布需求；单镜头延长支持5-30秒可调节长度，为用户提供了充分的创作灵活性。

从技术实现上来看，SkyReels-V3采用创新的统一多分段位置编码技术，能够精准建模复杂视频序列中的运动轨迹。通过分层混合训练策略，模型实现了不同镜头之间的平滑切换，解决了传统视频延长中常见的“跳跃”和“断裂”问题。这一技术确保即使在多主体交互、快速运动和场景剧变的情况下，延长内容也能保持高度的物理可信度和时间连贯性。

输入视频与prompt：Create a top side angle view of the robot playing the guitar.

SkyReels-V3生成的多角度视频：

输入视频与prompt：Revershot shot, the younger man from the front, capturing his attentive and slightly concerned expression as he listens to the older man's words.

SkyReels-V3生成的正反镜头切换视频：

虚拟形象模型（Talking Avatar Model）：

声画同步，打造“会说话的数字人”新时代

SkyReels-V3虚拟形象模型可从单张肖像图和音频片段生成高质量、音视频同步的视频，支持分钟级长视频生成和多角色交互。其卓越的音视频同步能力和高质量生成效果，为虚拟主播、在线教育、企业宣传等多个行业带来了前所未有的创作可能。

SkyReels-V3虚拟形象模型具备四大核心能力，重新定义行业标准：

1. 高保真视觉合成技术

SkyReels V3在视觉合成方面达到了新的高度。模型不仅能够精准还原唇部运动，更能够捕捉细微的面部表情变化，使虚拟形象的表现力更加丰富自然。无论是真实人物、卡通角色，还是动物形象或艺术化风格，系统都能保持原有的特征一致性，为不同应用场景提供量身定制的解决方案。

2. 广泛的风格兼容性

这一功能的突出优势在于其卓越的风格适应能力。从企业虚拟代言人到动漫角色，从教育讲解员到创意内容主角，SkyReels V3能够根据不同的肖像输入，生成相应风格的虚拟形象视频，满足从专业商业用途到个人创意表达的多样化需求。

3. 长视频稳定生成能力

通过关键帧约束生成技术，系统能够建立结构重要的关键帧，并生成关键帧间的平滑过渡，确保在长视频生成过程中始终保持高度的稳定性和一致性。这一突破使得制作高质量的教育视频、新闻播报、长篇故事叙述成为可能，大大拓展了虚拟形象的应用边界。

4. 多人物场景支持

SkyReels V3在多虚拟形象场景优化方面展现了行业领先的技术实力。系统支持显式的角色分配和协调交互，通过掩码指定说话人，能够实现对话、采访等复杂场景的自然呈现。这一功能为虚拟访谈、多角色教学等应用场景打开了新的可能性。

SkyReels-V3虚拟形象模型的卓越性能源于多项技术创新。精准音视频对齐技术确保了语音与口型的完美匹配，即使在处理快速语速或特殊发音时也能保持高度同步。而关键帧约束生成机制则通过智能识别关键表情和口型节点，在保证生成效率的同时，确保了长视频的内容连贯性和视觉稳定性。

图丨SkyReels-V3模型和当前主流视频生成模型在数字人生成场景的定量指标结果对比

输入图片、音频与prompt：

The dog speaks affectionately to the camera.Use a static shot.

SkyReels-V3生成的数字人视频：

输入图片、音频与prompt：

prompt: A woman holding white sunscreen speaks and gestures toward the camera. She occasionally shakes her head and body. Throughout the shot, she maintains a broad smile, showing her teeth and narrowing her eyes slightly, conveying intense happiness and joy. Use a static shot.

SkyReels-V3生成的数字人视频：