微软开源轻量级实时TTS模型！VibeVoice-Realtime-0.5B：实现多角色自然对话！-AI Express News

近日，微软低调开源了一款 0.5B 参数的轻量级实时 TTS模型 : VibeVoice-Realtime-0.5B！

这款仅0.5B参数的轻量级模型，目前已斩获12.3Kstar！

实现了多数巨型模型难以实现的实时发声能力：首包延迟仅约300毫秒，支持边输入文本边朗读，长文本处理无卡顿，还能实现多角色自然对话，真正让AI语音走向实时流式对话形态！

功能特点

超低延迟实时发声：首包延迟仅300ms，能做到文本生成与语音输出几乎同步，无需等待完整文本即可启音。

交错窗口架构：创新性采用交错窗口设计，可一边输出语音，一边续写后续音频，保障长文本朗读的连贯性。

多角色对话支持：最多可实现4个角色的自然对话，不同角色语音区分度清晰，适配多场景互动需求。

情绪识别与表达：在小体量模型中实现了情绪感知能力，可根据文本语境传递对应语气，让语音更具感染力。

长时上下文记忆：能在10分钟内稳定保持语气一致，最长记忆时长可达90分钟，避免长对话中语音风格断层。

双语兼容：同时支持中英文语音生成，仅当前版本下中文效果略逊于英文，具备广阔的本土化优化空间。

性能方面，模型在LibriSpeech和SEED TTS测试集上表现突出：

错字率（WER）约为2%，说话人相似度达0.65以上，平衡了准确性与自然度。

应用场景

AI 智能助手：相比传统助手响应更快，语音交互更贴近真人沟通逻辑；

会议助手：能实现边接收信息边语音反馈，几乎无延迟，提升会议记录与交互效率；

播客自动生成：支持4个角色自动对聊，可快速产出多角色播客内容；

游戏 NPC：结合实时对话、情绪表达与低延迟特性，增强游戏沉浸式体验；

视频配音：无需等待完整文案，即可实时生成音轨，提升视频制作效率；

客服机器人：可本地部署，摆脱云端 TTS 依赖，实现极低延迟的语音客服响应。

GitHub：https://github.com/microsoft/VibeVoice项目官网：https://microsoft.github.io/VibeVoice/

文章版权归作者所有，未经允许请勿转载。

THE END

微软开源轻量级实时TTS模型！VibeVoice-Realtime-0.5B：实现多角色自然对话！