一句话即可自由生成!语音双模型上线

在传统语音生成中,表达方式往往依赖预设标签,例如:

  • 固定情绪选项

  • 预定义语气类别

  • 限定风格模板

用户只能在有限选项中选择,而难以进行更自由、细腻的表达控制。

FreeStyle 新范式的核心突破在于

不再依赖固定标签,而是支持通过自然语言指令直接描述想要的表达方式。

通义实验室语音团队正式发布两款支持 FreeStyle 指令生成的模型 Fun-CosyVoice3.5  Fun-AudioGen-VD无论是精细控制声音表达,还是从零设计音色与场景,都可以通过自然语言指令直接生成。

两款模型均支持通过自然语言指令控制语音生成,但应用方向不同:

Fun-CosyVoice3.5:多语种复刻 + 精细化表达控制

Fun-AudioGen-VD:声音设计 + 场景化音频生成

图片[1]-一句话即可自由生成!语音双模型上线-AI Express News

01

支持 FreeStyle 指令控制

CosyVoice3.5 在 Instruct-TTS 方向实现能力升级,支持 FreeStyle 指令控制生成效果,一句话自由生成语音。

你可以直接用自然语言描述表达方式,例如:“语气坚定一点”、“稍微压低音调,语速慢一点”、“带一点情绪起伏”......模型即可理解并生成相应表达。

我们以这段参考音频为例,通过不同指令,分别生成普通话与粤语版本:

 

普通话 👉 普通话

指令:模拟导航在目的地到达时的欢快反馈,语气轻盈,带有一种伴随用户完成旅程的成就感。

合成文本:好啦,目的地就在您的右手边。本次导航就为您服务到这里,希望能为您忙碌的一天画个圆满的句号,下次再见!

普通话 👉 方言

指令:模拟粤语新闻节目记者,用清晰、稳重、有引导感的声线向受访者提问。

 

合成文本:"另外,有冇计划喺中国海外物业组合嘅占比提高至几多嘅水平咧?"

02

多语种扩展:新增 4 个小语种

新增支持:泰语印尼语葡萄牙语越南语。同时在 13 种语言的 WER 和 SpkSim 客观指标上保持业内领先。

印尼语

合成文本:Terima kasih sudah membantu saya menyelesaikan proyek kemarin, saya sangat menghargai kerja kerasmu.

葡萄牙语

合成文本:A coisa mais importante que você pode aprender é só amar e ser amado em troca.


03

发音准确性显著提升

针对生僻字、复杂语句等容易读错的场景专项优化,生僻字读错率从 15.2% 降至 5.3%,复杂文本表现更加稳定,长文本朗读也更稳定流畅。

生僻字/长文本测试

合成文本:从甪直到黟县,再经歙州古道,白墙黛瓦在薄雾中若隐若现。

图片[2]-一句话即可自由生成!语音双模型上线-AI Express News
图片[3]-一句话即可自由生成!语音双模型上线-AI Express News
图片[4]-一句话即可自由生成!语音双模型上线-AI Express News

04

韵律与音质优化

通过强化学习技术专项调优,双重提升听感,使整体听感更加自然,表达更有层次。

  • 语言模型部分使用 DiffRO + GRPO,增加时长与韵律多通道 reward,韵律表现明显提升。

  • Flow Matching音频生成使用 Flow-GRPO,复刻相似度和音质进一步提升。

音质提升对比

中文参考音频:噪音更大的音频

合成文本:随后这里便成为了新兴艺术家们的聚会所。


05

性能优化:更低延迟

  • Tokenizer 帧率减半

  • 首包延迟降低 35%

在实时交互场景下响应更快,体验更流畅。

图片[5]-一句话即可自由生成!语音双模型上线-AI Express News

如果说 Fun-CosyVoice3.5 解决的是“如何更好地表达”,

那么 Fun-AudioGen-VD 解决的是——声音如何被设计。

Fun-AudioGen-VD 支持根据自然语言描述,生成目标音色、情绪表达和完整听觉场景,实现“人物 + 场景”的一体化声音生成。

01

可控音色与角色化生成

支持通过指令精细化控制声音特征

  • 基础属性:性别、年龄、口音、音高、语速

  • 音质特征:沙哑、清亮、低沉、磁性......

  • 情绪表达愤怒、悲伤、兴奋、坚定......

  • 角色模拟:客服、老兵、孩童、AI、播音员......

  • 复杂心理:支持细腻状态表达(如“表面镇定但内心颤抖”)

角色语音生成示例

指令:【角色】疯狂反派;【声学风格】邪恶且神经质。音色:尖细。要求:语调在句子中段突然拔高,带有不规律的吞咽声和轻蔑的冷笑,语气充满了狂妄自大,表现出一种心理扭曲的状态。

合成文本:哈哈哈哈!你们以为凭这点微末的伎俩就能阻止我吗?太天真了!整个世界即将见证真正的艺术,而你们,只能成为这宏大篇章中最卑微的祭品!

图片[6]-一句话即可自由生成!语音双模型上线-AI Express News

02

环境与空间声学模拟

Fun-AudioGen-VD 不仅能生成声音,还能生成声音所处的“世界”,打造沉浸式听觉场景。
  • 背景环境音叠加城市喧嚣、咖啡馆背景、战场轰鸣等环境音;
  • 空间混响效果模拟大教堂、金属牢房、水下等空间回声;
  • 设备听感滤镜还原老式广播、对讲机、呼吸面罩等特殊音质;
  • 动态环境互动支持风噪断续、回声变化、嘶哑效果等实时互动。
 

场景化音频示例

指令:场景是在一家热闹的咖啡馆里。背景能听到磨豆机的嗡嗡声、瓷杯碰撞的清脆声,还有远处模糊的人声。说话人语气很松弛,就像是坐在对面跟你喝下午茶。

合成文本:哎,你尝尝他家这个新品,味道挺特别的。我刚才还想呢,咱下周要不把老李也约出来?咱三个好久没凑一块儿坐坐了。

图片[7]-一句话即可自由生成!语音双模型上线-AI Express News

FreeStyle 指令控制声音设计能力的结合,使语音生成从“功能工具”升级为“创作工具”。

影视动画、游戏、有声书及 AI 角色等场景中,创作者可通过自然语言快速定义音色、情绪与场景,大幅降低录制与调试成本,提升内容沉浸感。此外,Fun-AudioGen-VD 还能生成高质量参考音频,为声音复刻提供更丰富的素材基础。

这并非简单增加几个可选标签,而是让语音生成真正进入「自然语言控制表达」的阶段:

  • Fun-CosyVoice3.5:专注于复刻与表达控制,让声音更自然、更听话。

  • Fun-AudioGen-VD:拓展了音色与场景的一体化设计,让声音从无到有被创造。

当语音可以被描述、被理解、被精准生成,声音创作将不再受限于模板与标签,而成为一种可编排、可塑造的数字表达能力

API调用:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

文档:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

推荐阅读
 

 

图片[8]-一句话即可自由生成!语音双模型上线-AI Express News
图片[9]-一句话即可自由生成!语音双模型上线-AI Express NewsQwen3.5:更少激活参数,更强智能体能力

 

图片[10]-一句话即可自由生成!语音双模型上线-AI Express News
如何让 AI 用“温柔但坚定”的语气说话?

<原文链接:https://mp.weixin.qq.com/s/sTNC7bVphs9zofly3lBoUQ

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
通义实验室的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容