今天，我们开源了新一代全模态旗舰模型 MiniCPM-o 4.5 ！作为原生全双工的全模态大模型，MiniCPM-o 4.5 让人机交互再上新台阶——通过「边看、边听、主动说」的全模态能力，让 AI 告别死板的“对讲机”回合制交互，成为行业首个「即时自由对话」的大模型，感知不中断、对话不死板、提醒无需问。同时仅依靠 9B 的小身材，将行业高刷视觉理解、端到端语音对话等最先进的模型能力「All in One」，让 AI 真正开启类人感知与沟通交互的新时代。

MiniCPM-o 4.5 已在 GitHub、Hugging Face 等平台开源，结合面壁自研的行业首个开源的流式全模态模型高效端侧推理框架 llama.cpp-omni ，让模型部署更加简单、稳定、高效。此外，基于统一系统软件栈 FlagOS 的跨平台能力，MiniCPM-o 4.5 在天数智芯、华为昇腾、平头哥、海光、沐曦等 6 款芯片上均获得端到端推理性能提升。我们也为开发者提供了免部署的线上体验版本，欢迎大家一起探索 MiniCPM-o 4.5 的更多能力新玩法、应用新场景。

➤ MiniCPM-o 4.5 亮点一览

再次刷新端侧全模态能力上限：全模态、视觉理解、文档解析、语音理解和生成、声音克隆能力达到领先水平，以及最佳推理效率和最低推理开销。
开启全模态全时感知：视觉、音频、文本不同模态输入输出不阻塞，即使在模型输出时，也在「看」和「听」，不丢失任何信息。
从“回合制”交互升级为“即时自由对话”：通过随时保持对外感知，模型可以以最合适的时机、最恰当的内容实时回复。
语音自然、情感饱满：显著提升全模态端到端语音生成的音色、拟人度、声音表现力，声音克隆支持自由定制音色，且长语音合成更加稳定。
原生全双工技术首创：采用端到端的全模态架构，结合全双工多模态实时流机制、主动交互机制、可配置语音建模设计，造就了 MiniCPM-o 4.5 与人一样自然的交互能力与体验。

➤ 模型链接

GitHub：

🔗https://github.com/OpenBMB/MiniCPM-o

HuggingFace：

🔗https://huggingface.co/openbmb/MiniCPM-o-4_5

ModelScope：

🔗https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

体验链接-全双工全模态模式：

🔗https://huggingface.co/spaces/openbmb/minicpm-omni

体验链接-图文对话模式：

🔗http://211.93.21.133:18121/

最强端侧全模态

「看听说」全面领先

持续刷新能力上限

沿袭面壁小钢炮一贯的“高密度”特点，MiniCPM-o 4.5 仅靠 9B 参数，在全模态、视觉理解、文档解析、语音理解和生成、声音克隆等方方面面，均做到了全模态模型 SOTA 水准！

左滑查看更多内容

MiniCPM-o 4.5 不仅在模型能力密度上再上台阶，也一直致力于追求大模型的极致「能效比」，通过更低的显存占用、更快的响应速度，确保在提供 SOTA 级全模态表现的同时，实现了最佳的推理效率和最低的推理开销。

全双工

「眼耳口」并用

告别「对讲机式」死板交互

去年，MiniCPM-o 2.6 让端侧大模型实现了持续看、实时听、自然说的能力。今年，我们再次带来了革命性升级——让全模态模型具备「边看、边听、主动说」的全双工与主动交互能力。

传统的单工模型犹如“对讲机”一般，当模型回答时，无法接收外部信息，只能「说完再看、说完再听」，犹如人在说话时，捂住眼睛和耳朵，无法达到和人一样正常交互体感的同时，也极大的可能丢失最为关键的信息。

“眼观六路、耳听八方”

MiniCPM-o 4.5 实现「边看、边听、主动说」，在任何情况下都随时保持「看」和「听」的感知。结合让大模型对高清视频的理解能力，以及灵敏、机智的辨音能力，让大模型不放过任何的关键细节，也不会被冗杂的信息干扰。

“随机应变、伺机而动”

相较于大多数多模态模型仍依靠 VAD（Voice Activity Detection，语音活动检测）等外部工具及工程化方式实现控制说话，MiniCPM-o 4.5 原生全双工模型 的另一项优势是在保持感知的同时，可以自身根据环境的动态变化实时反应，以最合适的时机、最恰当的内容回复，让大模型对于 信息的感知与传递永远不会慢半拍。

自然说

语音全新升级

带来情绪饱满、超拟人听感

实现和人一样的感知与交互能力，带来的不仅仅是持续的「看」和「听」，还需要更加稳定、自然、情绪饱满的「说」。

MiniCPM-o 4.5 通过新的模型设计和数据方法，让语音生成的音色、拟人度、声音表现力等方面获得了全方位的提升，在音频输出过程中，会自动选择最为合适的语气、音色，带来如真人般的声音效果。

值得一提的是，MiniCPM-o 4.5 也极大地解决了长语音合成中音色不统一、语气不自然、效果不稳定难题，超长语音生成依旧保持稳定。

在声音克隆上，MiniCPM-o 4.5 提供了更多的声音选择，可以基于几秒的声音样本克隆定制新音色，并基于克隆音色进行角色扮演的语音对话。

模型架构介绍

MiniCPM-o 4.5 采用了端到端的全模态架构，并创新的加入了全双工多模态实时流机制、主动交互机制、可配置语音建模设计，造就了 MiniCPM-o 4.5 与人一样自然的交互能力与体验。

端到端全模态架构。各模态的编码器/解码器与大语言模型通过稠密特征以端到端的方式进行紧密连接。这种设计实现了更好的信息流转与控制，有助于在训练过程中充分挖掘和利用丰富的多模态知识。
全双工多模态实时流机制。
- MiniCPM-o 4.5 将离线模态编码器/解码器转化为支持流式输入/输出的在线全双工版本。语音解码器采用文本与语音 token 交错建模的方式，支持全双工语音生成（即与新输入实时同步），同时也提升了长语音（如超过 1 分钟）生成的稳定性。
- 时分复用： MiniCPM-o 4.5 在毫秒级时间线上同步所有输入和输出流，并利用时分复用机制在语言模型主干中进行统一建模。该机制将并行的全模态流划分为微小周期性时间片内的顺序信息组，从而实现高效的全模态流式处理。
主动交互机制。语言模型模块会持续监控输入的视频和音频流，并以 1Hz 的频率自动决策是否发言。这种高频决策能力结合全双工特性，是实现主动提醒、主动评论等“主动交互”能力的关键。
可配置语音建模设计。 MiniCPM-o 4.5 延续了 MiniCPM-o 2.6 的多模态系统提示词设计，同时包含文本系统提示词和音频系统提示词（用于指定音色）。这使得模型在推理阶段能够通过简单的参考音频实现声音克隆和角色扮演。

模型如何使用

MiniCPM-o 4.5 可通过多种方式轻松部署和使用：

(1) 通过 llama.cpp 和 Ollama 在本地设备上实现高效的 CPU 推理；

(2) 提供 16 种不同大小的 int4 和 GGUF 量化模型；

(3) 通过 vLLM 和 SGLang 实现高吞吐、内存高效的推理；

(4) 通过统一系统软件栈众智 FlagOS 实现 MiniCPM-o 4.5 多芯片后端支持。用户可基于众智 FlagOS 公开镜像 “开箱即用”多芯版 MiniCPM-o 4.5，或者基于 vLLM-plugin-FL 启动多芯版 MiniCPM-o 4.5；

(5) 使用 LLaMA-Factory 对新领域和任务进行微调；

(6) 提供在线网页演示。我们还同步推出了高性能的 llama.cpp-omni 推理框架及配套的 WebRTC Demo，可在 PC 等本地设备上实现全双工多模态实时流体验。

➤ 体验链接

🔗https://huggingface.co/spaces/openbmb/minicpm-omni

直播&线下观摩 Meetup 邀请

2月7日（周六）晚19:00，OpenBMB 将举办「面壁小钢炮 MiniCPM-o 4.5」技术分享 Meetup，全程线上直播！欢迎所有关注多模态技术发展的开发者一同参与交流。

📅 线上观看：锁定 OpenBMB 官方微信视频号/Bilibili，准时进入直播间

👥 线下参与：我们也开放少量线下交流名额（北京市海淀区清华大学附近），报名成功以短信通知为准～欢迎开发者们扫描下方二维码填写报名问卷📃！

期待与你共同探讨多模态技术的最新进展！❤️

<原文链接：https://mp.weixin.qq.com/s/rGSHzEFfq0s4AaRYUaxUyg

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

MiniCPM-o 4.5开源：「眼耳口」并用，模型交互从「一问一答」变为「即时自由对话」

最强端侧全模态

「看听说」全面领先

持续刷新能力上限

全双工

「眼耳口」并用

告别「对讲机式」死板交互

自然说

语音全新升级

带来情绪饱满、超拟人听感

模型架构介绍

模型如何使用

直播&线下观摩 Meetup 邀请

请登录后发表评论

MiniCPM-o 4.5开源：「眼耳口」并用，模型交互从「一问一答」变为「即时自由对话」​​

最强端侧全模态

「看听说」全面领先

持续刷新能力上限

全双工

「眼耳口」并用

告别「对讲机式」死板交互

自然说

语音全新升级

带来情绪饱满、超拟人听感

模型架构介绍

模型如何使用

直播&线下观摩 Meetup 邀请

请登录后发表评论

MiniCPM-o 4.5开源：「眼耳口」并用，模型交互从「一问一答」变为「即时自由对话」