一句话即可自由生成！语音双模型上线-AI Express News

在传统语音生成中，表达方式往往依赖预设标签，例如：

固定情绪选项
预定义语气类别
限定风格模板

用户只能在有限选项中选择，而难以进行更自由、细腻的表达控制。

FreeStyle 新范式的核心突破在于

不再依赖固定标签，而是支持通过自然语言指令直接描述想要的表达方式。

通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5 与 Fun-AudioGen-VD。无论是精细控制声音表达，还是从零设计音色与场景，都可以通过自然语言指令直接生成。

两款模型均支持通过自然语言指令控制语音生成，但应用方向不同：

Fun-CosyVoice3.5：多语种复刻 + 精细化表达控制

Fun-AudioGen-VD：声音设计 + 场景化音频生成

支持 FreeStyle 指令控制

CosyVoice3.5 在 Instruct-TTS 方向实现能力升级，支持 FreeStyle 指令控制生成效果，一句话自由生成语音。

你可以直接用自然语言描述表达方式，例如：“语气坚定一点”、“稍微压低音调，语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。

我们以这段参考音频为例，通过不同指令，分别生成普通话与粤语版本：

普通话 👉 普通话

指令：模拟导航在目的地到达时的欢快反馈，语气轻盈，带有一种伴随用户完成旅程的成就感。

合成文本：好啦，目的地就在您的右手边。本次导航就为您服务到这里，希望能为您忙碌的一天画个圆满的句号，下次再见！

普通话 👉 方言

指令：模拟粤语新闻节目记者，用清晰、稳重、有引导感的声线向受访者提问。

合成文本："另外，有冇计划喺中国海外物业组合嘅占比提高至几多嘅水平咧？"

多语种扩展：新增 4 个小语种

新增支持：泰语、印尼语、葡萄牙语、越南语。同时在 13 种语言的 WER 和 SpkSim 客观指标上保持业内领先。

印尼语

合成文本：Terima kasih sudah membantu saya menyelesaikan proyek kemarin, saya sangat menghargai kerja kerasmu.

葡萄牙语

合成文本：A coisa mais importante que você pode aprender é só amar e ser amado em troca.

发音准确性显著提升

针对生僻字、复杂语句等容易读错的场景专项优化，生僻字读错率从 15.2% 降至 5.3%，复杂文本表现更加稳定，长文本朗读也更稳定流畅。

生僻字/长文本测试

合成文本：从甪直到黟县，再经歙州古道，白墙黛瓦在薄雾中若隐若现。

韵律与音质优化

通过强化学习技术专项调优，双重提升听感，使整体听感更加自然，表达更有层次。

语言模型部分使用 DiffRO + GRPO，增加时长与韵律多通道 reward，韵律表现明显提升。

Flow Matching（音频生成）使用 Flow-GRPO，复刻相似度和音质进一步提升。

音质提升对比

中文参考音频：噪音更大的音频

合成文本：随后这里便成为了新兴艺术家们的聚会所。

性能优化：更低延迟

Tokenizer 帧率减半
首包延迟降低 35%

在实时交互场景下响应更快，体验更流畅。

如果说 Fun-CosyVoice3.5 解决的是“如何更好地表达”，

那么 Fun-AudioGen-VD 解决的是——声音如何被设计。

Fun-AudioGen-VD 支持根据自然语言描述，生成目标音色、情绪表达和完整听觉场景，实现“人物 + 场景”的一体化声音生成。

可控音色与角色化生成

支持通过指令精细化控制声音特征

基础属性：性别、年龄、口音、音高、语速
音质特征：沙哑、清亮、低沉、磁性......

情绪表达：愤怒、悲伤、兴奋、坚定......
角色模拟：客服、老兵、孩童、AI、播音员......

复杂心理：支持细腻状态表达（如“表面镇定但内心颤抖”）

角色语音生成示例

指令：【角色】疯狂反派；【声学风格】邪恶且神经质。音色：尖细。要求：语调在句子中段突然拔高，带有不规律的吞咽声和轻蔑的冷笑，语气充满了狂妄自大，表现出一种心理扭曲的状态。

合成文本：哈哈哈哈！你们以为凭这点微末的伎俩就能阻止我吗？太天真了！整个世界即将见证真正的艺术，而你们，只能成为这宏大篇章中最卑微的祭品！

环境与空间声学模拟

Fun-AudioGen-VD 不仅能生成声音，还能生成声音所处的“世界”，打造沉浸式听觉场景。

背景环境音：叠加城市喧嚣、咖啡馆背景、战场轰鸣等环境音；
空间混响效果：模拟大教堂、金属牢房、水下等空间回声；
设备听感滤镜：还原老式广播、对讲机、呼吸面罩等特殊音质；
动态环境互动：支持风噪断续、回声变化、嘶哑效果等实时互动。

场景化音频示例

指令：场景是在一家热闹的咖啡馆里。背景能听到磨豆机的嗡嗡声、瓷杯碰撞的清脆声，还有远处模糊的人声。说话人语气很松弛，就像是坐在对面跟你喝下午茶。

合成文本：哎，你尝尝他家这个新品，味道挺特别的。我刚才还想呢，咱下周要不把老李也约出来？咱三个好久没凑一块儿坐坐了。

FreeStyle 指令控制与声音设计能力的结合，使语音生成从“功能工具”升级为“创作工具”。

在影视动画、游戏、有声书及 AI 角色等场景中，创作者可通过自然语言快速定义音色、情绪与场景，大幅降低录制与调试成本，提升内容沉浸感。此外，Fun-AudioGen-VD 还能生成高质量参考音频，为声音复刻提供更丰富的素材基础。

这并非简单增加几个可选标签，而是让语音生成真正进入「自然语言控制表达」的阶段：

Fun-CosyVoice3.5：专注于复刻与表达控制，让声音更自然、更听话。
Fun-AudioGen-VD：拓展了音色与场景的一体化设计，让声音从无到有被创造。

当语音可以被描述、被理解、被精准生成，声音创作将不再受限于模板与标签，而成为一种可编排、可塑造的数字表达能力。

API调用：https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

文档：https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

推荐阅读

Qwen3.5：更少激活参数，更强智能体能力

如何让 AI 用“温柔但坚定”的语气说话？

<原文链接：https://mp.weixin.qq.com/s/sTNC7bVphs9zofly3lBoUQ

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

一句话即可自由生成！语音双模型上线

CosyVoice3.5 在 Instruct-TTS 方向实现能力升级，支持 FreeStyle 指令控制生成效果，一句话自由生成语音。

请登录后发表评论