AI 每日速递 20251017

74次阅读
没有评论

共计 2766 个字符,预计需要花费 7 分钟才能阅读完成。

生成式 AI

一、谷歌深夜上新 Veo 3.1 对标 Sora 2,网友狂刷 2.75 亿条

1. 谷歌发布视频生成模型 Veo 3.1,主打更强叙事与音频控制、首尾帧与多图参考等精控功能,接入 Gemini API 与 Vertex AI,Flow 与 Gemini 可用;

2. 模型支持 720p 或 1080p 分辨率 24fps 视频,原生时长 4 - 8 秒,使用 Extend 功能最长可扩展至 148 秒,可合成多人物场景并实现音画同步;

3. 用户已在 Flow 中生成超过 2.75 亿个视频,但成片质感较 Veo 3 进步有限,基础物理表现有所改善但人物表演与复杂调度仍存在问题。

https://mp.weixin.qq.com/s/2qlH4dnTviiWV5XuEUyANA

二、Anthropic 推轻量模型 Claude Haiku 4.5,便宜、快速

1. Anthropic 发布轻量级模型 Claude Haiku 4.5,编码性能可与 Claude Sonnet 4 相媲美,成本仅为其三分之一(每百万输入 token 1 美元,输出 5 美元),推理速度提升一倍多;

2. 在计算机使用基准 OSWorld 上得分 50.7% 超越 Sonnet 4 的 42.2%,数学推理测试中借助 Python 工具成绩高达 96.3% 远超 Sonnet 4 的 70.5%;

3. 模型主打实时低延迟任务场景如聊天助手、客服、协同编程,通过严格安全性评估,偏差行为发生率显著低于其他 Claude 模型。

https://mp.weixin.qq.com/s/EsiE4RhNhgMrFXul8OO0aA

三、千问上线 Qwen Chat Memory 功能,让 AI 拥有记忆

1. 阿里通义千问正式上线 Qwen Chat Memory 功能,让 AI 能够记录并理解用户在过去对话中的重要信息,包括个人偏好、兴趣方向或特定任务背景;

2. 该功能可跨越多轮甚至多天对话保留个性化认知,与仅依靠上下文窗口的短期记忆不同 ;记忆AI 助手向长期陪伴型智能体迈出关键一步;

3. 所有记忆内容可由用户查看、管理和删除,用户拥有完整控制权,首先在网页版 Qwen Chat 上线,未来推广至更多终端。

https://mp.weixin.qq.com/s/65iKWpzNW3XsjP_yAtjKUA

四、字节更新语音模型,豆包·语音合成 2.0 与声音复刻 2.0

1. 火山引擎升级豆包语音合成模型 2.0 和声音复刻模型 2.0,通过 Query-Response 能力实现情境理解与语气把控,可通过细节描述精准生成对应情感;

2. 语音合成 2.0 提供默认模式、语音指令和引入上文三种模式,可控制整段情绪基调、方言类型、语速音调等,模型能自动理解上下文情绪连贯生成;

3. 声音复刻 2.0 可精准复现米老鼠、小沈阳等动漫人物和真人音色语速情绪,对公式朗读测试准确率接近 90%,在教育场景专项优化。

https://mp.weixin.qq.com/s/_TJXhIp79xeZ5-HoEPX18Q

前沿科技

五、谷歌×耶鲁联手发布抗癌神器!AI 狙击「隐身」癌细胞

1. 谷歌与耶鲁大学联合发布 270 亿参数大模型 Cell2Sentence-Scale(C2S-Scale),基于 Gemma 模型构建,提出并验证让肿瘤对免疫系统更易被识别的全新抗癌假设;

2. 模型通过双环境虚拟筛选流程对 4000 多种药物进行模拟,发现激酶 CK2 抑制剂 silmitasertib 仅在免疫信号活跃环境中显著增强抗原呈递,该预测已在体外实验中多次验证;

3. 研究展示 AI 模型生成原创科学假设的潜力,有望打开人类抗癌新途径,模型及代码已在 Hugging Face 和 GitHub 全面开放。

https://mp.weixin.qq.com/s/EmKclm_O_gs8Gf5hPoEtAw

报告观点

六、Anthropic 预训练负责人:预训练和后训练的平衡问题

1. Anthropic 预训练团队负责人 Nick Joseph 强调预训练核心是推动损失函数下降,如何平衡预训练和后训练、各自作用叠加还是互补仍在早期探索阶段;

2. 当前 AI 研究最大瓶颈是计算资源受限而非算法突破,真正的挑战在于如何有效利用算力并解决规模扩展中的工程难题,预训练团队也需考虑推理问题;

3. 对齐问题核心是让模型分享人类目标,预训练与后训练各有优势,后训练迭代快适合调整模型,某些对齐可融入预训练增强鲁棒性和智能性。

https://mp.weixin.qq.com/s/Ikl93dlVqVZoHos-CFyJwg

七、LangChain 联合 Manus:也许是最佳上下文工程讲解

1. LangChain 创始工程师 Lance Martin 与 Manus 联合创始人季逸超深入探讨上下文工程,强调 AI Agents 执行复杂长期任务时上下文窗口会因大量工具调用急剧膨胀导致性能下降;

2. 有效的上下文工程通过卸载、精简、检索、隔离和缓存等技术,将恰到好处的信息填入上下文窗口,Manus 设计了基于多层阈值的自动化流程协同使用压缩和总结;

3. 核心设计哲学是避免上下文过度工程化,最大性能飞跃来自简化架构和信任模型,优先选择上下文工程而非过早模型专业化,保持应用层灵活性和快速迭代能力。

https://mp.weixin.qq.com/s/_LlK7hK7vjKYxKJQPn6t8w

八、谷歌 142 页报告首发揭秘:90% 码农每天用 AI 超 2 小时

1. Google Cloud DORA 2025 报告显示 90% 开发者已在日常工作中使用 AI,每天中位数使用时长 2 小时约占工作日四分之一,但只有 24% 表示高度信任 AI 输出;

2. AI 不是单向效率药丸而是放大镜,在文化健康协作顺畅团队中作为加速器提升效率,但在环境存在问题的团队会放大裂缝导致交付更加不稳定;

3. 报告首次提出七种典型团队人设和 DORA AI 能力模型,包括用户导向、版本控制、数据可用性等七项关键能力,决定团队能否从遗留瓶颈进化为和谐高效。

https://mp.weixin.qq.com/s/CZyS4wdRfortk79z92jPyQ

九、黄仁勋对话红杉美国:百万倍投资回报,AI 工厂资本逻辑

1. 黄仁勋回顾 1993 年红杉 100 万美元投资 NVIDIA,三十年后成长为超过 1 万亿美元市值实现 100 万倍回报,强调从第一性原理推演未来是突破关键;

2. CUDA 的诞生让 GPU 从图形设备变成通用加速平台,2012 年 AlexNet 在 ImageNet 竞赛获胜成为转折点,NVIDIA 为神经网络开发 CUDNN 库使模型训练速度成倍提升;

3. AI 工厂核心是系统整合而非芯片性能,从建筑供电到软件栈提供完整算力生产线,未来的国家 AI 战略将是进口加自建的混合模式,主权 AI 成为新一轮国家竞争核心。

https://mp.weixin.qq.com/s/JdPzCCURxKfP7a0Uq9V5DQ

正文完
 0
评论(没有评论)