最近 TTS 领域是真的越来越卷了,国内外各个互联网大厂轮番上阵。 阿里通义(Qwen)团队最近在开源界简直是“劳模”级别的存在,这边又悄悄上新了全新的 Qwen3-TTS。 而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。 Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型,主打三件事: 这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。 1、49 种高保真音色 这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。 不只是「男声/女声/老年/童声」这种基础划分,而是已经具备角色化倾向。 比如下面这些非常有画面感的音色👇 这些音色已经不是“调调音高”,而是明显带说话习惯与表达风格。 这 49 个音色几乎就是现成的素材库。 2、10 种语言 + 9 种方言 ✅ 10 种语言支持 包括: 在 MiniMax TTS multilingual test set 上: Qwen3-TTS 的平均 WER 表现,优于 MiniMax/ElevenLabs/GPT-4o Audio Preview,对一个国产 TTS 来说,这个成绩非常能打。 ✅ 9 种中文方言 并且不是机器味很重那种读方言词典,而是能保留真实语调与地域口音。 3、语速 & 韵律智能调节 相比上一代,Qwen3-TTS 最大的模型层面改进,其实在韵律控制。 可根据文本内容自动调整语速;情绪变化时韵律跟着变;还有陈述/转折/感叹,听得出来区别。 拟人化程度相比上一代 有明显感知级提升。 Qwen3-TTS 的使用需通过 API 方式进行,而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。 大家可选择一个可访问的进行使用体验其效果。 如果需要 API 接入到自己的项目或应用中,可在阿里云百炼开通 API 进行使用。 示例代码: Qwen3-TTS 并不是想做最多功能的 TTS,而是选择把「像不像真人」这件事,往前推了一大步。 多音色、多语言、多方言只是表象,真正重要的是 — 语速、韵律、情绪,开始有「人味」了。 如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用,这一代 Qwen3-TTS,非常值得认真试一下。![图片[1]-阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251209151836106-1765264716-55cbe20ffe774e8bbceafaa84cc1c22e.png)
主要特色
![图片[2]-阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251209151837501-1765264717-d2a08ca7eb41f34b58140491dd3fe61d.png)
![图片[3]-阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251209151838904-1765264718-356356e06c606122f52949d452b77760.png)
![图片[4]-阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251209151839885-1765264719-7c4f3af6db64f997134080bf70f128ef.png)
快速入手
![图片[5]-阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251209151839111-1765264719-b9d591c031a1d9a44df8a125beba3ef6.png)
![图片[6]-阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251209151840694-1765264720-082d726ba53b508880ee71ca8c177a4a.png)
# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
model="qwen3-tts-flash-2025-11-27",
api_key=os.getenv("DASHSCOPE_API_KEY"),
text=text,
voice="Cherry",
language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。
stream=False
)
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav" # 自定义保存路径
try:
response = requests.get(audio_url)
response.raise_for_status() # 检查请求是否成功
with open(save_path, 'wb') as f:
f.write(response.content)
print(f"音频文件已保存至:{save_path}")
except Exception as e:
print(f"下载失败:{str(e)}")写在最后
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧












暂无评论内容