AI 每日速递 20251209

生成式AI

一、微软开源VibeVoice-Realtime-0.5B:实现多角色自然对话

1. 微软开源0.5B参数轻量级实时TTS模型VibeVoice-Realtime-0.5B,首包延迟仅300毫秒,支持边输入文本边朗读,发布12小时获得12.3K星标;

2. 模型采用交错窗口架构实现长文本无卡顿朗读,支持最多4个角色自然对话,具备情绪识别与表达能力,长时上下文记忆可达90分钟;

3. 同时支持中英文语音生成,LibriSpeech和SEED TTS测试集错字率约2%,说话人相似度达0.65以上,适用于AI助手、会议记录、播客生成等场景。

https://mp.weixin.qq.com/s/4IEREGutnIOp2k6ULlg3tA

二、智谱GLM-4.6V上线并开源:从看懂图片到自动完成任务

1. 智谱正式上线并开源GLM-4.6V系列多模态大模型,包括106B-A12B基础版和9B轻量版Flash,训练时上下文窗口提升至128k tokens,相较GLM-4.5V降价50%;

2. 首次在模型架构中将Function Call能力原生融入视觉模型,实现"图像即参数,结果即上下文"的多模态工具调用,打通从视觉感知到可执行行动的链路;

3. 在同参数规模下达到SOTA表现,9B版本整体超过Qwen3-VL-8B,106B参数版本比肩2倍参数量的Qwen3-VL-235B,支持图文混排、识图购物、前端复刻等应用场景。

https://mp.weixin.qq.com/s/16svJl6E1sTvdz_Q63-qLQ

三、Day5可灵O1「主体库」&对比模板两大功能全新上线

1. 可灵O1推出"主体库"功能,支持上传多角度参考图构建专属角色、道具和场景,视频O1支持至多7个主体、图片O1支持至多10个主体随心组合;

2. 新增AI补图功能,可根据一张主要参考图自动扩展更多视角并智能生成主体描述,汇集海量官方主体库素材持续更新中;

3. "对比模板"功能一键整合多模态创作,实现Prompt、参考图、主体等所有输入与终极成品的Before & After高效同框对比,助力作品成为爆款。

https://mp.weixin.qq.com/s/mwQgTCt79yU2o78F5BRYgQ

四、美团发布LongCat-Image模型,编辑能力登顶开源SOTA

1. 美团LongCat团队发布并开源6B参数LongCat-Image模型,在ImgEdit-Bench(4.50分)、GEdit-Bench中英文(7.60/7.64分)等图像编辑基准测试中达到开源SOTA水平;

2. 采用文生图与图像编辑同源架构设计及渐进式学习策略,在中文文字生成方面ChineseWord评测以90.7分大幅领先,覆盖通用规范汉字表8105个汉字;

3. 全面开源文生图多阶段模型(Mid-training、Post-training)和图像编辑模型,GenEval 0.87分、DPG-Bench 86.8分的表现使其在生图基础能力上具备强竞争力。

https://mp.weixin.qq.com/s/YicvAPTt0nobdRB0RH2nsw

五、腾讯AI上新,混元2.0正式发布,DeepSeek V3.2率先接入

1. 腾讯自研大模型混元2.0(Tencent HY 2.0)正式发布,采用MoE架构,具备406B总参数量(激活参数32B),支持256K超长上下文窗口,推理能力处于业界领先地位;

2. DeepSeek V3.2同步在腾讯生态内接入,重点提升推理表现与长文本生成质量,在公开推理类评测中能力达GPT-5水平,略低于Gemini-3 Pro;

3. 两大模型已在元宝、ima等腾讯AI原生应用中上线,腾讯云同步开放API及平台服务,QQ浏览器、搜狗输入法、腾讯地图等多款产品正在陆续接入。

https://mp.weixin.qq.com/s/ExnYs0LGICnlt4fcCMcD0A

六、阿里Qwen3-TTS全新上线!支持9种方言+49种音色

1. 阿里通义团队发布Qwen3-TTS新一代文本转语音模型,提供49种高保真角色化音色,包括"茉兔"(活泼撒娇)、"沧明子"(低沉睿智)等具有画面感的音色体系;

2. 支持10种语言(中英德法西意葡日韩俄)和9种中文方言(普通话、粤语、闽南语、吴语、四川话、北京话、南京话、天津话、陕西话),保留真实语调与地域口音;

3. 在MiniMax TTS multilingual test set上平均WER表现优于MiniMax/ElevenLabs/GPT-4o Audio Preview,韵律控制相比上一代有明显感知级提升。

https://mp.weixin.qq.com/s/_kY8LMMrMjURJQPszlUk7w

七、ARC-AGI 2英伟达4B小模型击败GPT-5 Pro!成本仅1/36

1. 英伟达4B小模型NVARC在ARC-AGI 2测试中以27.64%公开榜成绩力压GPT-5 Pro的18.3%登顶榜首,每任务成本仅20美分,约为GPT-5 Pro单任务成本的1/36;

2. 采用零预训练深度学习方法,通过大规模合成高质量数据(320万+增强样本)和测试时微调(TTFT)技术,针对每个问题进行LoRA微调快速适应;

3. 选用Qwen3-4B小参数模型通过对话式模板简化谜题理解,借助NeMo RL框架进行监督微调,将复杂推理移至离线合成数据管道完成。

https://mp.weixin.qq.com/s/acDvA5LD9bfsPi-GpITAzA

前沿科技

八、普渡发布最新行业级自主导航四足机器人PUDU D5系列

1. 普渡机器人正式发布行业级自主导航四足机器人PUDU D5系列,提供轮足/点足两个版本,搭载NVIDIA Orin与RK3588双芯片架构,总算力高达275TOPS,支持部署端侧大模型;

2. 配备四目鱼眼相机与双192线激光雷达,实现厘米级精准定位和环境重建,可稳定承载30公斤负载,单次充电续航达14公里,整机防护IP67,工作温度范围-20℃至55℃;

3. 采用仿生轮足融合系统,最高速度可达5米/秒,具备30°斜坡攀爬与25厘米连续越阶能力,适用于园区巡检、物料输送、导购分发、科研教学等多场景应用。

https://mp.weixin.qq.com/s/TY19niRQw6IV0jrJAn4Kcw

报告观点

九、Karpathy:别再问AI「你怎么看了」,错误的提示词策略

1. Andrej Karpathy提出核心观点:不要把大语言模型看作实体,而应视作模拟器,避免使用"你怎么看"这样的提问方式,因为根本不存在"你";

2. 建议采用更有效的提问策略:"什么样的一群人适合探索xyz话题?他们会怎么说?"通过这种方式让LLM引导或模拟多种视角,而非局限于单一AI人格;

3. 强调模型的"你"是被刻意设计、工程化并硬加上去的,通过SFT和RLHF构建的复合人格本质上仍建立在Token模拟引擎之上,不是随时间构建的涌现性"心智"。

https://mp.weixin.qq.com/s/mvsmrOq2bNIyU-FLy-L0Nw

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容