AI 每日速递 20251216

生成式AI

一、 深夜炸场!Manus 1.6 突然发布,史诗级进化暴力实测

1. Manus 1.6 Max发布,实现从"辅助工具"到"独立承包商"的质变,用户满意度提升19.2%,采用子Agent并行处理架构,能独立完成复杂Excel财务建模和数据分析;

2. 新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成可运行的iOS和Android应用;

3. 推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点。

https://mp.weixin.qq.com/s/8gsfjMHOiadZMrRUUo4ZRw

OpenAI开源模型Circuit-Sparsity,0.4B,99.9%权重为零

4. OpenAI开源Circuit-Sparsity模型参数量仅0.4B,强制99.9%权重为零仅保留0.1%非零权重,解决模型可解释性问题;

5. 稀疏模型内部形成紧凑可读的"电路",规模比密集模型缩减16倍,神经元激活具有明确语义,但运算速度慢100至1000倍;

6. 研究团队提出"桥梁网络"方案在稀疏模型与密集模型间插入编码器-解码器对,实现对现有大模型的可解释性行为编辑。

https://mp.weixin.qq.com/s/beN3Pv9e6jI9GtyDAeDPBw

、Thinking Machines首款产品重大更新,国产模型也可微调

1. 前OpenAI CTO Mira Murati创办的Thinking Machines取消候选名单全面开放Tinker产品,这是用于帮开发者微调语言模型的API;

2. 新增支持Kimi K2 Thinking微调(万亿参数规模专为长链推理设计)和Qwen3-VL视觉输入(30B和235B两款模型);

3. 提供兼容OpenAI API的全新推理接口,用户可即插即用接入任何兼容OpenAI API的平台,简化LLM后训练过程。

https://mp.weixin.qq.com/s/2rq-gXR-amrVagpPv1bedA

、NotebookLM接入Gemini:多笔记调用,与网络信息结合

1. 部分用户发现NotebookLM正式"接入"Gemini体系,可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答;

2. Gemini成为连接多个NotebookLM笔记的"中枢",解决NotebookLM不支持笔记本合并的问题,可同时调用多个笔记进行查询;

3. NotebookLM内容开始可与网络信息同时使用,实现"个人资料+全网信息"混合式分析,从"小众研究工具"融入谷歌核心AI产品线。

https://mp.weixin.qq.com/s/g1YGupYP8LuRmm2FfcU50w

、通义发布Fun-CosyVoice3、Fun-ASR,并开源小尺寸模型

1. 通义百聆发布Fun-CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支持9语种18方言口音跨语种克隆与情感控制;

2. Fun-ASR 噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到 160ms

3. 开源开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力Fun-ASR-Nano-0.8B轻量化版本,推理成本更低。

https://mp.weixin.qq.com/s/0c_cK2zwxkuR1lx-n8cNxA

、Zoom也来搞AI,称在AI最难考试上击败了Gemini 3

1. 视频会议公司Zoom宣称在"人类最后的考试"HLE基准测试上取得48.1%成绩,比Google Gemini 3 Pro的45.8%高出2.3个百分点;

2. Zoom采用"联邦AI方法",将自研小型语言模型与OpenAI、Anthropic、Google等公司闭源和开源模型组合,通过Z-scorer评分系统选择输出;

3. 该成绩未出现在HLE官方排行榜,发布当天Sup AI已宣布以52.15%准确率超越,Zoom正试图成为企业工作流中的AI中枢。

https://mp.weixin.qq.com/s/thkaVqobmJ6qgU6Xn-h82Q

、Gemini 3屠榜金融"最难考试"CFA,AI砸了金饭碗?

1. 最新研究显示推理模型全部通过CFA三级考试,Gemini 3.0 Pro一级考试创97.6%历史最高纪录,GPT-5二级考试以94.3%领先;

2. 三级考试中Gemini 2.5 Pro选择题达86.4%,Gemini 3.0 Pro问答题达92.0%,短短两年从"不及格"到"近乎满分";

3. 专家指出会考试≠能干活,AI在"道德伦理"类题目最吃力,且无法排除"数据污染"可能,不能替代分析师的战略思考和客户沟通。

https://mp.weixin.qq.com/s/JbUCQTtW8igAHKJTxT9ZDQ

前沿科技

、"医学版ChatGPT"OpenEvidence两月估值翻倍至120亿美元

1. OpenEvidence正在进行2.5亿美元股权融资,投后估值达120亿美元,较两个月前上一轮私募估值翻了一番;

2. 该公司通过向制药公司出售聊天机器人广告位赚钱,目前年化广告收入约1.5亿美元,比8月份增长3倍,毛利率高于90%;

3. 根据OffCall调查约45%美国医生使用OpenEvidence,每月回答来自美国医生约2000万个问题,使用医学期刊许可信息比通用聊天机器人更准确。

https://mp.weixin.qq.com/s/rtsAy3l2DuGifwqBTBG2hQ

报告观点

、仅4人28天!OpenAI首曝Sora内幕:85%代码竟由AI完成

1. OpenAI仅用4人工程团队与AI智能体Codex协作28天完成安卓版Sora开发,消耗约50亿Token,约85%代码由AI完成;

2. 团队采用"探索-验证-联邦"智能体工作流,Codex处理繁重编码任务,工程师专注架构、用户体验和质量把控,实现99.9%无崩溃率;

3. Codex已承包OpenAI内部每周70%的PR,能监控自己训练过程并处理用户反馈,形成"AI迭代AI"的自我进化模式。

https://mp.weixin.qq.com/s/8C2jHhAsxejKScR26gqrrA

、《经济学人》:ChatGPT 推出"成人模式"之前,已在发生

1. 到2025年AI成人内容市场规模将达约25亿美元,到2028年可能以每年约27%速度增长,OpenAI、Meta等巨头纷纷布局该领域;

2. AI成人内容彻底颠覆传统生产方式,可按需定制性格、语气、外貌,研究显示人类会觉得AI生成的脸比真人脸"更真实";

3. DeepFake技术成为校园霸凌和羞辱女性工具,仅需一张照片AI就能"脑补"裸体,专家警告AI正在制造隔离而非缓解孤独。

https://mp.weixin.qq.com/s/Xwv25OtC3wXiAiQpaaq5Bg

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容