Grok Voice Agent API发布:实时语音、可配置人格

点击上方蓝字【聚大模型前言】关注我,热门AI资讯每天更新~~

图片[1]-Grok Voice Agent API发布:实时语音、可配置人格-AI Express News

导读:xAI 正式发布 Grok Voice Agent API,首次将 Grok 的实时语音能力以 API 形式向开发者开放。该 API 以低延迟语音交互为核心,支持多种声音与人格配置,并可在对话中接入公开网络与 X 平台数据。


xAI 宣布推出 Grok Voice Agent API,为开发者提供对 Grok 实时语音输入与输出能力的程序化访问。该 API 面向语音优先(voice-first)应用场景,重点服务于对话式智能体、语音助手以及陪伴型产品,所有配置均可通过 xAI 控制台统一管理

图片[2]-Grok Voice Agent API发布:实时语音、可配置人格-AI Express News

在功能层面,Grok Voice Agent API 内置多种 Grok 语音模式中已上线的声音,包括 Sal、Rex、Eve、Leo,同时也支持 Mika、Valentin 等陪伴型人格。开发者不仅可以自由选择声音,还能 精细化控制系统指令和行为参数,以适配不同产品风格与交互需求。

值得注意的是,该 API 支持在语音对话过程中开启搜索能力,允许 Grok 实时查询公开网页或 X 平台数据。使其应用范围不再局限于基础语音交互,而是覆盖 客服支持、社交陪伴、研究型语音助手等更复杂场景

图片[3]-Grok Voice Agent API发布:实时语音、可配置人格-AI Express News

在技术架构上,Grok Voice Agent API 采用流式音频设计,支持实时的语音识别与语音合成,这种设计显著降低了交互延迟,为“边说边听”的自然对话体验提供了良好基础。

语音只是 Grok API 体系的起点,xAI 已暗示未来将扩展至更丰富的文件处理与媒体生成接口,逐步实现 语音、文本与多模态能力的统一 API 化

xAI 正在将 Grok 从 X 平台内的消费级功能,升级为面向开发者的 AI 平台。通过产品化语音与人格能力,xAI 正式加入与主流语音 AI 技术栈的竞争,并试图以 独特的数据来源与人格化设计,在高度拥挤的语音智能体市场中建立差异化优势。


参考资料:https://x.ai/news/grok-voice-agent-api

原文链接:https://mp.weixin.qq.com/s/gbdC3oHQh-dLpggeFWMnZA

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容