
舞台中央,灯光聚焦,随着一段高亢的旦角唱腔,角色完成了一连串配合鼓点的长枪动作。这并非真实演出,而是 Seedance 1.5 pro 尝试一镜生成的创作片段,其演绎与专业戏曲表演尚有很大差距,但声韵已初见雏形。
Seedance 1.5 pro 支持音视频联合生成,它能够执行多种任务,包括从文本到音视频的合成以及图像引导的音视频生成等。至此,Seedance 视频生成不再局限于视觉维度,而是自然融合了声音。
![图片[2]-声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251217074421482-1765928661-732b8b56effb4dd145dd7bad384fbb92.jpeg)
在 Seedance 1.0 版本中,我们更侧重改善模型表现的“下限”,优化了运动生成的稳定性;而 Seedance 1.5 pro 除了支持音频同步生成外,还致力于提升视觉冲击力和运动效果的“上限”。通过采用更加大胆的技术方案,Seedance 1.5 pro 在视听协同、视觉张力和叙事协调性等方面实现突破:
-
精准音画同步与多语言、方言支持:模型在生成中实现了较高的视听一致性,提升了角色的口型、语调与表演节奏的拟合精度。模型原生支持多语种和特色方言口音,能够捕捉其独有的语音韵律与情感张力。
-
电影级运镜控制与动态张力:模型具备自发的镜头调度能力,可执行长镜头跟随、希区柯克变焦等高难度运镜,同时还能实现电影级的画面衔接与专业影调,大幅提升了视频的动态张力。
-
语义理解与叙事协调性增强:通过增强语义理解,模型实现了对叙事语境的较好解析。它显著提升了音视频段落的整体叙事协调性,为专业级内容创作提供有力支撑。
在综合评测中,Seedance 1.5 pro 取得领先的结果,各项关键能力处于业界前列。目前,Seedance 1.5 pro 已上线即梦AI和豆包,欢迎使用反馈。
Model Card:https://arxiv.org/pdf/2512.13507
项目主页:https://seed.bytedance.com/seedance1_5_pro
体验入口:
(1)即梦网页端-视频生成-选择视频3.5 Pro;
(2)豆包 App 对话框-照片动起来-上传照片-选择 1.5 Pro 模型-输入 prompt(内测中)
不止音画,更有叙事
从素材生成到作品表达
Seedance 1.5 pro 不再满足于生成简单的内容片段,而是将视频和音频视为一个整体,以满足多样化的创作需求。模型对视听协同、动态调度和文化语境的掌握,使其在影视创作、短剧生成、广告生产及戏曲演绎等场景中,均展现出较好的叙事表现力与视听融合度。
接下来,我们将通过具体场景,拆解 Seedance 1.5 pro 如何助力专业创作。
1. 细腻连贯的叙事表现力,支持影视艺术创作
Seedance 1.5 pro 在语义理解上实现了较大提升,这使它能够解析细腻复杂的人类情感,并将其转化为富有张力的艺术表达。同时,依靠高精度的视听协同,模型可深度融合语音、画面和场景氛围,生成相对一致的精细呈现,从而增强内容的叙事感染力。
在特写镜头中,模型展现出细腻的情绪捕捉能力。即使在没有台词的情况下,它也能通过细微的表情变化延续情绪铺垫。例如,在生成的赛博朋克电影感视频中,模型可根据指令推测故事背景,并精细演绎人物状态,其情绪变化自然且富有层次,与环境和音乐氛围达到统一。
除了带有故事感的特写镜头生成,Seedance 1.5 pro 还可根据提示语组织出具备基本叙事结构的镜头序列。比如,在动漫作品创作中,模型能生成烟火绽放、男女主日语告白的多个连续镜头,配合情绪化声线,展现出流畅的叙事逻辑。
2. 专业运镜与动态张力,满足高难度场景需求
Seedance 1.5 pro 优化了运镜控制和动态张力,能更好地应对高难度的复杂场景生成。
模型可以相对从容地演绎高动态、高冲击力的运动场景。在滑雪视频中,通过声音和画面运动的协同,Seedance 1.5 pro 创造了强烈的临场感:镜头高速侧切紧随滑雪者轨迹,雪雾迸溅的瞬间被细腻捕捉,真实还原了极限运动的速度与力量。
同时,模型具备自发的运镜调度能力,能够执行高难度镜头运动,可应对精度要求较高的生成场景。在模拟红毯首映礼场景时,模型能生成镜头快速摇移的效果,营造现场的匆忙与繁华,配合女生清晰的中文说话声,有效还原了现场氛围。
在生成的扫地机器人宣传片中,画面可按商业广告片风格缓慢地推动镜头,并紧密追随机器人的运动,较好地聚焦产品。
3. 支持多语种和方言,增强喜剧等风格化表演质感
Seedance 1.5 pro 支持多语种语音生成,能够相对自然地呈现中文、英文、日文、韩语、西班牙语、印尼语等语种的声韵。尤其在中文语境下,模型还能模拟四川语、粤语等多种方言口音,为短剧和娱乐内容提供了更自然的表演质感。
例如,大熊猫啃竹子时突然用四川口音对着镜头吐槽,模型能匹配方言的声韵和表情,赋予视频鲜活的生命力。
4. 精准音效生成,提升游戏等视听内容沉浸感
除了人声,Seedance 1.5 pro 对环境音效和音乐氛围同样有较好的理解。模型能够根据画面内容叠加环境音,营造空间感,实现“所见即所听”。
在像素风游戏片段中,模型不仅实现了随角色跑步、跳跃而流畅跟随的运镜,还可同步生成契合场景的 8-bit 游戏音效,展现了在快节奏运动中的音画协同。
在 3D 风格的游戏片段中,模型生成了细节丰富的开放世界,且随着角色移动,脚步声与喘息声精准同步,配合远处低沉的乌鸦鸣叫,提升了视听交互的沉浸感。
依托上述能力, Seedance 1.5 pro 可有力支持影视、广告、短剧、动漫等类型化创作。尤其在 I2V 任务中,模型展现出较强的风格一致性,有效保持了多镜头切换与复杂运动中的人物特征稳定,提升了从素材片段到成片制作的连贯性。
Seedance 1.5 pro 评测结果
指令遵循、音频表现突出
为了客观评估模型的综合能力,团队建立了综合评测基准 SeedVideoBench 1.5。该测试集由影视导演与技术专家联合制定评估标准,重点考察模型在视觉复杂指令遵循、运动稳定性与生动性、美学质量,以及音频指令遵循、音画同步、音质表现力等维度的表现。
在视频生成方面,相比对比评测的其他模型,Seedance 1.5 pro 对动作、镜头等复杂指令的理解相对精准,可更好匹配提示词设定的叙事与影像风格。评测显示,其动态表现较为饱满,人物表情特写生动,复杂运镜相对流畅且与参考图风格衔接自然统一,整体画面质感更贴近实拍;不过,其运动稳定性仍有提升空间。
![图片[3]-声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251217074422826-1765928662-904caa3fba8a6997ae7e0fc80f1959e9.jpeg)
Seedance 1.5 pro 视频生成能力评测
在音频生成方面, Seedance 1.5 pro 处于业内头部水平。模型在音频指令遵循、音画同步、音质与表现力等维度表现稳定且均衡:能相对准确地生成匹配的人声与指定音效,尤其在中文台词场景中具备较高的完整性与发音清晰度,并可响应多种方言指令。
相比同类模型,Seedance 1.5 pro 生成的人声相对更自然、机械感更少,音效真实感与空间混响较为贴近实际,同时音画错位现象显著减少。尽管后续仍需重点提升其在多角色交替对话及歌唱类场景的表现,但综合来看,该模型已能部分应用于中文及方言对白驱动的短剧、舞台演艺及电影类叙事场景。
![图片[4]-声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251217074423417-1765928663-716cbc7d35125daf8805b774f73ca5b1.jpeg)
Seedance 1.5 pro 音频生成能力评测
多模态联合生成架构
实现视听流精准协同
Seedance 1.5 pro 采用音视频联合生成的基座模型设计,通过底层架构、数据链路、后训练与推理环节的重构,提升了模型在多样化复杂任务中的泛化性能。
![图片[5]-声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251217074424143-1765928664-ded74cbe8bcf746a18fa3da2716b8614-scaled.jpeg)
Seedance 1.5 pro 训推框架图
-
多模态联合架构:团队提出了一种基于 MMDiT 架构的统一音视频联合生成框架,通过深度跨模态信息交互机制,实现了视觉与听觉流在时间同步与语义一致性上的精准协同。通过在大规模混合模态数据集上进行多任务训练,我们的模型在各种下游任务中实现了稳健的泛化能力。
-
多阶段数据 Pipeline:团队设计了平衡音视频一致性、运动表现力与课程化调度的多阶段数据链路。该方案显著增强了视频描述的丰富度与专业性,并融入音频描述,为高保真音视频生成任务提供了高质量、多样化的数据基础。
-
精细化后训练优化:团队采用了高质量音视频数据集进行监督微调 (SFT),并引入专为音视频场景定制的 RLHF 算法。具体而言,多维奖励模型有效增强了文生视频 (T2V) 和图生视频 (I2V) 任务的表现,全面提升了运动质量、视觉美感及音频保真度。
-
高效推理加速:团队进一步优化了多阶段蒸馏框架,大幅降低生成所需的函数评估次数 (NFE)。通过集成量化、并行等推理基础设施优化,在保持模型性能的同时,实现了超过 10 倍的端到端推理加速。
总结与展望
相较我们的前代视频生成模型 Seedance 1.0,Seedance 1.5 pro 在沉浸式音画体验和作品级叙事表达上迈出关键一步。
依托音视频联合架构与精细化后训练,Seedance 1.5 pro 实现了对多模态指令的较好遵循——无论是在影视级的高动态运镜,还是对口型精准度有要求的方言表演中,它均展现出较高潜力。不过,我们也注意到,模型在高难度运动的物理稳定性、多角色对话及演唱等方面仍有提升空间。
未来,Seed 团队将致力于突破更长时长的叙事生成与更实时的端侧体验,并进一步增强模型对物理世界规律的理解及其多模态感知能力。我们希望 Seedance 系列模型能更生动、更高效、更懂用户,助力创作者打破感官界限,实现视听创意。
原文链接:https://mp.weixin.qq.com/s/C6YH3ifq7vJPjY_zSpWbfw














暂无评论内容