阶跃星辰语音模型登顶全球第一!开源!

阶跃星辰开源模型Step-Audio-R1.1,拿下全球第一!

图片[1]-阶跃星辰语音模型登顶全球第一!开源!-AI Express News

全球知名权威大模型评测榜单 Artificial Analysis Speech Reasoning 更新,阶跃星辰原生语音推理模型 Step-Audio-R1.1 登顶榜首。

该榜单是目前业界评估“原生语音模型”(Native Audio Models)最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力,主要考察维度包括准确率、首包延迟等。

和大语言模型同理,语音模型同样需要具备强大推理能力,才能提供更高阶智能、更自然交互。

Step-Audio-R1.1 以 96.4% 准确率,超越 Grok、Gemini、GPT-Realtime 等主流一线模型,刷新历史最好成绩。

在性能与速度的综合权衡上,Step-Audio-R1.1 全面碾压同类语音模型。
图片[2]-阶跃星辰语音模型登顶全球第一!开源!-AI Express News
Step-Audio-R1 是由阶跃星辰发布的全球首个开源原生语音推理模型。它可以在不增加额外时延的情况下,端到端理解语音内容,“像人类一样听到对话即可思考”。

核心能力包括:

  • 深度语音推理

  • 实时响应能力

  • 音频领域的可扩展 CoT

Step-Audio-R1.1 是最新升级版本,兼顾更强实时对话和复杂语音推理能力。完整的实时语音 API 将在 2 月上线,目前开放的chat模式已搭载 R1.1 核心,支持边想边说的流式推理。

  • 案例一:分析猫猫吵架

🔽上下滑动查看模型输出内容

根据提供的所有音频片段,这两只猫咪正在进行激烈的打斗和嘶吼。

可以从以下几点判断:

1、声音特征:音频中充满了持续、高亢且充满攻击性的猫叫和嘶吼声。这并非普通猫咪之间玩耍的打闹声,而是带有明显威胁和对抗意味的咆哮。

2、互动状态:可以听到不止一只猫的声音,它们的叫声此起彼伏,表明它们正在直接对抗。

3、人类干预:在音频的后半部分,可以清晰地听到有人在用中文劝阻:“别骂了”“别打了”,这直接说明了当时的情况是两只猫正在激烈争斗,甚至可能已经造成了伤害或噪音过大,导致主人不得不介入制止。

综上所述,这两只猫咪正在发生激烈的打斗,可能是由于领地争端、资源竞争(如食物或主人关注)或其他冲突引发的。

  • 案例二:理解海豹舞BGM韩语歌词

(最近抖音上很火的海豹舞,魔性BGM本来是一位外国友人在反复练习韩语词汇)

🔽上下滑动查看模型输出内容

我对说话人正在进行的活动分析如下:

这位说话人正在进行韩语口语发音练习或朗读训练。具体分析依据如下:内容重复性高:她反复念诵着结构相似的词组,

例如:

메기메긴하다 / 메기메긴한(Megi-megi-n ha-da / Megi-megi-n han)

这种高度重复的模式是典型的语言学习或发音练习特征,而非自然对话。总结来说,音频中的说话人并非在进行日常交流,而是在一个结构化的、有明确目的的口语训练场景中。

她通过快速、重复地朗读设计好的词组,来练习韩语的特定发音技巧或语法点,最可能的身份是语言学习者或从事声音相关工作的专业人士。

目前,Step-Audio-R1.1 权重已上传至 HuggingFace:

https://huggingface.co/stepfun-ai/Step-Audio-R1.1

同时,欢迎大家下载体验或前往「阶跃星辰开放平台体验中心」试玩!

https://www.stepfun.com/studio/audio?tab=conversation

GitHub地址:

https://github.com/stepfun-ai/Step-Audio-R1

魔搭ModelScope:

https://modelscope.cn/studios/stepfun-ai/Step-Audio-R1

<原文链接:https://mp.weixin.qq.com/s/UqVjKZCrneK0fkIX0oC3UQ

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容