“AI 吴彦祖” MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

15次阅读
没有评论

共计 4434 个字符,预计需要花费 12 分钟才能阅读完成。

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

超越 OpenAI!

国产大模型突袭,AI 语音生成天花板被重新定义了。

MiniMax 最新发布 Speech-02,同时拿下Artificial Analysis Speech ArenaHugging Face TTS Arena两项全球权威语音基准测评 第一

而且还是榜单前十名中 唯一 的国产玩家。

要知道,这俩榜首长期被 OpenAI、ElevenLabs 占据,前者不用多介绍,公认的 AI 领域全球 NO.1 梯队成员,后者也是专精 AI 语音合成赛道的领军玩家。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

具体效果如何?一手实测在此:

用专业播音腔读一读量子位的文章?So easy~

直接根据文章内容配上相应的语气和情绪,中英混杂轻松搞定,各种停顿和重音,完全就是顶级新闻播报员的感觉。

还能让霉霉为我们读论文。不仅是熟悉的美音,而且非常还原她个人特点。

如上效果,只需几秒语音参考,即可让大模型当场完成超逼真复刻。

并且在提供 SOTA 级性能同时,定价仅为 ElevenLabs 的一半甚至四分之一,性价比也称得上“全球 SOTA”了。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

如此能力,不少人其实不知不觉体验到了。

比如前段时间大火的吴彦祖陪你学英语中的“AI 阿祖”,底层能力正是来自 MiniMax。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

还有个人开发者打造的出圈案例——故宫 AI 向导,正是基于MiniMax MCP Server,支持通过简单文本输入,完成图像、语音、视频生成以及声音克隆等多项能力。其中语音生成与克隆的能力,就是靠 MiniMax Speech 模型完成。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

果然,MiniMax 还是一如既往闷声搞大事啊。

那么借着这次语音模型重磅更新,来扒一扒 MiniMax 是如何发起突袭的。

全球首个实现多样化、个性定义的语音模型

总结来看,Speech-02 兼顾了三方面亮点:

  • 超拟人
  • 个性化
  • 多样性

首先,在最关键的“超拟人”方面,Speech-02 的还原度不说是 100%,也几乎是天衣无缝了。

比如这段脱口秀,无论是中文咬字还是英文发音,都非常完美。同时还带有自然的情绪起伏、停顿和重音,给人以更丰富的听觉感受。

其次在个性化方面,Speech-02 现在已经提供了 丰富音色 可供选择。

细分维度包括语言、口音、性别和年龄。目前已经支持32 种语言。中英文这样常用的选项里,还包含不同的口音。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

同时,它也支持对任意音色进行复刻。

由于不局限于只学习精品音色,它具备极强泛化能力,最少只需听 10 秒参考样本,即可完成对一种说话人声音的模仿。而且还支持对音色进行进一步细节调整。

声音参考 这一功能为例(这一功能在国内仅对 B 端用户开放),只需提供 10-300 秒声音参考样本,Speech-02 就可以开始完成复刻。上传文件 or 直接录音都可以。也就是说,对着模型说几句话,它就已经能学会你的音色了。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

它支持自动剔除背景噪音,对上传音频的质量要求不高。

比如生成霉霉音色时,我们使用了她在纽约大学演讲的片段,其中包含了掌声、欢呼声等噪音影响,但是对生成结果的影响很小。

此外还支持情绪等更细微的调整,能满足专业领域人士的需求。

最后,在多样性方面,Speech-02 可以支持 32 种语言。

不仅支持不同语言之间无缝切换,而且在音色生成时就可以完成语种跨越。比如喂给它霉霉英文语音素材,让它生成中文版音色。

生成的语音也支持多语言之间无缝切换,如下是英语、西班牙语之间切换。

由此几方面优势结合,用 Speech-02 完成电影级配音,也不是问题了。

从数据维度看,Speech-02 的表现也是全方位碾压。

通过 词错误率 (WER)和 说话者相似度(SIM)两个维度,在 Seed-TTS Test 数据集上,Speech-02 在零样本克隆中实现了更低词错误率,one-shot 下 SIM 得分与真实音频(Ground Truth)相当,表明模型能够有效提取和保留说话者音色特色。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

在多语言评估上,Speech-02 在包含 24 种语言的测试集上,它的 WER 表现与 ElevenLabs Multilingual v2 相当,在中文、粤语、泰语、越南语和日语等复杂语言中表现更好,甚至在英语上也完成了对 ElevenLabs 的全线超越

在 SIM 方面,MiniMax-Speech 在所有测试语言中 均优于 ElevenLabs Multilingual v2,表明其说话者编码器和合成流程在保留说话者身份方面更为有效。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

A 语音音频直接克隆至 B 语言语音,MiniMax-Speech 的 zero-shot 在所有测试语言中都实现了更低 WER,发音准确度最高。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

创新性提出 Flow-VAE,更好把握克隆细节

所以,Speech-02 为啥这么强?

还得看技术细节。目前 Speech-02 论文已全面公开,还被很多海外 AI 博主关注到了。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一
“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一
“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

从技术维度,Speech-02 实现了只需极少样本、甚至在没有训练数据的情况下,仅通过参考音频,就能生成与目标说话人极为相似的音色,并且可以转换成多种语种。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

具体而言,它使用了 基于自回归 Transformer 的架构

大多数自回归 TTS 在语音克隆中需要语音和对应文字转录作为提示。提示语音和目标语音在语义或语言上存在不匹配、解码长度限制等问题,往往会造成生成质量欠佳。

为此,Speech-02 引入了独特的 可学习说话者编码器(Learnable Speaker Encoder),直接与 TTS 模型一起训练。输入仅为一段参考音频,输出为一个固定大小的“声音特征向量”。

核心解决了三方面问题:

1、无需参考文本 即可通过语音提示实现 零样本 语音克隆;
2、跨语言语音生成,它只关注声音的特征而不关心语音内容,因此即使参考音频是英文,但是也可以使用该音色直接生成其他语言的语音;
3、根据生成任务实际需求,提取出对音质和相似度更有用的特征

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

模型另一个重要创新在于引入了基于 Flow-VAE 的流匹配模型,进一步提升了生成语音的音质和说话人相似性。

VAE(Variational Autoencoder)用来学习语音的潜在特征表示(比如音色、韵律、情感等),它通常假设潜在空间服从标准正态分布,这可能会限制模型对复杂数据分布的建模能力。

由此引入 Flow 模型,通过一系列可逆转换,将潜在空间映射到更复杂的分布,从而更准确地捕捉数据中的复杂结构和分布特性。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

此外,研究团队还探索了模型的多种下游应用。比如通过 LoRA 实现对合成语音情感更精细控制、文本驱动音色生成以及专业语音克隆(通过微调参数为特定说话人生成更高保真度语音)。

为行业造 AI 语音引擎

不过,技术上领先还只是其一,在 AI 语音行业落地上,MiniMax 也已悄悄领先。

落地案例多元、跨行业、全球化。与不同行业玩家共同开拓 AI 语音的应用前景。具体包括:

  • 成熟场景:教育、有声书等
  • 新鲜场景:AI 伴读、智能硬件、汽车智能座舱、3A 游戏实时交互等

比如在教育领域,MiniMax 与高途共同探索出了 24 小时可定制化的 AI 语言陪练系统。

最近全网爆火的“吴彦祖教你学口语”中的“AI 阿祖”,就是基于此实现,通过对吴彦祖音色精品复刻,在高途推出的吴彦祖英语课中,AI 阿祖可以 24 小时随时在线陪练。

在智能座舱方面,MiniMax 多个大模型已入驻极狐汽车,为用户提供即时问答服务。

值得一提的是,作为大模型技术厂商,MiniMax 还一直与不同行业玩家共创,开拓 AI 应用边界、激发场景创新。

在一些前沿落地场景里,总能看到 MiniMax。

比如大模型趋势下爆火的 AI 玩具 领域,MiniMax 为热度 top1 的跃然创新 haivivi 提供底层语音合成和文本模型能力。支持 BubblePal 能够随时灵活回答小朋友们的“十万个为什么”。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

基于 MiniMax 语音能力的「AI 语音挂件」(售价 399-449 元),上线 2 个月销量突破 2 万台。

AI 教育硬件方面,MiniMax 为听力熊团队提供底层模型支持,专为青少年解决学习、生活中的各种问题,不局限于问题回答,还可以进行适当的反馈和情感表达,兼顾教育与陪伴场景。听力熊 AI 听说学习机 T6 已接入。

更为新鲜的,MiniMax 与香港电视台尝试了使用语音模型的粤语能力做天气预报,进一步开拓落地场景。

在海外也与 Hedra 合作,打造了可以定制化的数字角色分身。

可以明显感知到,MiniMax 不仅在商业价值已得到初步验证的领域积极落地,也重点关注了 AI 语音在 更多新场景的应用,推动技术创新同时更为行业带来新价值。

可以感知到,与 MiniMax 达成合作的行业玩家中,不乏领域内领军者,更有很多来自新兴赛道。前者的落地价值已经初步被验证,后者则蕴藏着巨大潜力。

Always MiniMax,Why?

所以,为啥它们不约而同选择 MiniMax?

技术领先性是最首要的。MiniMax 是 AI 领域头部玩家,在大模型技术浪潮之前,已经抢先布局自研多个模态的基础模型,覆盖文本、语音、视觉三大领域。

显然在 AI 语音领域,MiniMax 长线布局,而且一直走在行业前沿。

而且,MiniMax 还有天然的技术试炼场——星野、Talkie 等。这意味着,MiniMax 更懂实际落地、更懂如何将实验室中的前沿技术输送到用户面前。所以,MiniMax 也是国内最早用大模型架构提供语音服务的公司。

这或许也是为何 MiniMax 始终低调,但又一直被行业青睐。

而透过这次动作,MiniMax 的布局战略,也呈现出更清晰的全貌——

布局全模态,且纷纷拿下 SOTA。

以最初的三大基础模型为起点,MiniMax 在短短 2 年时间内已经完成了对全模态能力的完整布局。

文本方面 ,MiniMax 打破了传统 Transformer 架构限制, 首次大规模实现了线性注意力机制,这种架构创新极大地提升了模型的计算效率,降低了成本,尤其在处理超长文本场景中,展现出显著的可扩展性。这也是对 Agent 时代进行抢先押注,从中也足见 MiniMax 领先于行业的技术。

就在年初,MiniMax 还完成了 MiniMax-01 系列开源,包含两个模型,基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01,为开源社区提供优质选择。

语音方面,随着 Speech-02 发布,MiniMax 在 AI 语音领域的领先地位更加不可动摇。

视频方面, 螺 AI 已经是全球最大的生成式 AI 视频平台,它为用户提供了高度自由的创作控制能力,用户可以通过简单的输入(如一张图片或一段文字)生成视频,并且能够像专业导演一样自由掌控镜头语言。

“AI 吴彦祖”MiniMax Speech-02:超越 OpenAI、拿下全球双料第一

如今,大模型趋势来到应用落地侧,MiniMax 依旧坚持原始性创新,不断刷新领域内新纪录。

底层技术是 AI 厂商的源头优势,是长期估值的压舱石,也是唯一不可被快速复制的壁垒。

而在落地方面,MiniMax 低调推进,与不同行业合作。一些 AI 落地爆款背后,总能看到 MiniMax 的身影。这既是技术领先的进一步验证,也是其落地能力的直接证明。

可以看到,随着大模型发展驶入“深水区”,更关键在于,谁能构建起“模型即产品”机制,不断将 AI 技术从一线实验室向千行百业输送。

在这之中,布局全、壁垒深、落地广的玩家,更值得被关注。

MiniMax 已经为行业打了个样,不是吗?

正文完
 0
评论(没有评论)