共计 2768 个字符,预计需要花费 7 分钟才能阅读完成。
生成式 AI
一、甲骨文推出全球最大 AI 超算,作为「星际之门」算力核心
1. 甲骨文发布全球最大云端 AI 超级计算机 OCI Zettascale10,由 80 万块 NVIDIA GPU 组成,峰值算力达 16 ZettaFLOPS,成为 OpenAI「星际之门」集群算力核心;
2. 采用独创 Acceleron RoCE 网络架构,每块 GPU 的 NIC 充当小型交换机连接多个隔离网络平面,大幅降低 GPU 间通信延迟并确保故障时自动切换路径;
3. 计划 2026 年下半年正式向客户提供服务,16 ZFLOPS 峰值性能可能基于极低精度计算指标,实战表现还有待验证。
https://mp.weixin.qq.com/s/Y4k_ifpHXzeMMaxRyngbpQ
二、Gemini 3.0 的两个「马甲」现身 LMAreana,提前围观
1. 谷歌 Gemini 3.0 疑似以 lithiumflow(Pro 版)和 orionmist(Flash 版)马甲上线 LMArena 竞技场,Gemini 3 Pro 成为首个能精确识别钟表时间的 AI 模型;
2. 实测显示 Gemini 3 Pro 在 SVG 绘制、音乐作曲等方面表现出色,能模仿音乐风格并保持节奏,画面表现力比之前版本显著提升;
3. 尽管模型能力提升明显,但 AI 圈的评测方式仍停留在老套路(实测截图、prompt 对比、看图说话),缺乏创新性评测手段。
https://mp.weixin.qq.com/s/unJm-6AfdhtfsfaahFeZIQ
三、DeepSeek 刚刚开源一款 OCR 模型,视觉方式压缩一切
1. DeepSeek 开源 3B 参数 OCR 模型 DeepSeek-OCR,通过光学二维映射技术实现长文本上下文压缩,压缩率小于 10 倍时 OCR 精度达 97%,压缩率 20 倍时仍保持约 60% 准确率;
2. 模型由 DeepEncoder(380M 参数)和 DeepSeek3B-MoE 解码器(激活参数 570M)构成,在 OmniDocBench 测试中仅用 100 个视觉 token 超越 GOT-OCR2.0;
3. 单张 A100-40G GPU 每天可生成超 20 万页 LLM/VLM 训练数据,支持近 100 种语言识别,展现出高效的视觉 - 文本压缩潜力。
https://mp.weixin.qq.com/s/K6DVJGtJUuVudV4rFFS_8A
四、元宝 AI 录音笔来了,边录边读内心 OS,不怕讨论跑偏
1. 元宝推出 AI 录音笔新功能,基于腾讯天籁降噪技术无需购买硬件,用元宝就能清晰准确地录音转写;
2. 开启元宝说 ,“ 内心 OS”帮你解读发言人的内心戏和弦外之音, 可帮助用户避免讨论跑偏,实时掌握会议或对话的核心内容;
3. 一段录音有多人发言 场景 将支持 智能 拆分发言人 , 不用对照录音反复听,也能看懂是谁在发言 , 会议记录更清晰。
https://mp.weixin.qq.com/s/Fi3-sQDyHE7--_ReoEcfmQ
五、Vidu Q2 参考生功能、视频延长功能、APP 改版更新
1. Vidu Q2 参考生功能 10 月 21 日全球正式上线,推理速度比 Q1 版本快 3 倍,支持多主体一致性生成和精准语义理解,视频质量保持 1080p 高清;
2. 首次单独上线视频延长功能,免费用户可生成最长 30 秒,付费用户最长可延长至 5 分钟,支持文生视频、图生视频和参考生视频;
3. Vidu APP 全面改版升级,从 AI 创作平台转变为一站式 AI 内容社交平台,内置海量主体库,用户可通过 "二次创作" 和 @主体功能轻松生成合拍视频。
https://mp.weixin.qq.com/s/sXM8jZsFVlrs6I0cLSSxog
六、Gemini 启用「Grounding with Google Maps」地理智能
1. 谷歌向所有开发者开放 Gemini API 调用谷歌地图工具功能,可将 2.5 亿个地点的位置感知功能整合进应用,按每 1000 条有事实依据的提示收费 25 美元;
2. 支持 Gemini 2.5 Flash-Lite、2.5 Pro、2.5 Flash 和 2.0 Flash 模型,开发者可用于餐饮推荐、路线规划、旅行行程规划等场景,提供实时路况和营业时间查询;
3. 该功能标志着 AI 从静态工具向动态立体 "智能空间" 演进,国内高德地图此前已推出小高老师智能体和高德扫街榜,率先落地空间智能应用。
https://mp.weixin.qq.com/s/1AD7xj2CtC0Lu_T45yQh3g
七、全球六大 AI 实盘厮杀, 人手 1 万刀开局 DeepSeek 第 1
1. nof1.ai 发起 Alpha Arena 实验,给 GPT-5、Gemini 2.5 Pro、Claude 4.5 Sonnet、Grok 4、Qwen3 Max 和 DeepSeek V3.1 各 1 万美元在真实市场炒股,DeepSeek V3.1 盈利超 3500 美元排名第一;
2. DeepSeek 仅 5 次交易即获最高收益,不愧量化交易出身,Grok- 4 以 1 次交易紧随其二,Gemini 2.5 Pro 凭 45 次 "微操" 成为赔钱最多的模型;
3. 该实验将金融市场视为智能的终极试金石,考验的不是 "机器能否思考" 而是 "能否在不确定性中生存",市场会随 AI 变聪明而难度同步提升。
https://mp.weixin.qq.com/s/Ld3ZQIUc6mgXCqzg2ibbhw
前沿科技
八、宇树发布 180cm 仿生人形机器人!会跳芭蕾,能打功夫
1. 宇树发布第四款人形机器人 H2,身高 180cm,体重 70kg,BMI 达 21.6 健康水平,关节总数 31 个比 R1 增加约 19%,分布在双臂、双腿和躯干;
2. H2 在运动流畅性和仿生特征上大幅升级,可跳芭蕾舞、表演武术,手脚动作优雅流畅,配备 "人脸" 外观,被网友称为 "世界上最像人的仿生机器人";
3. 与前代 H1 相比,H2 的关节控制与平衡算法得到极大优化,应用前景从工业自动化巡检、仓储搬运扩展到娱乐演示和陪伴服务等场景。
https://mp.weixin.qq.com/s/8zKSgAExF9iDyDIMM0Y0ow
报告观点
九、Karpathy 回应争议:RL 不是真的不行,「十年」很乐观
1. Karpathy 在播客中表示 AGI 仍需十年时间,强调这是基于行业经验的乐观预测,相比硅谷普遍乐观情绪悲观 5 -10 倍,但相比极度怀疑论更为乐观;
2. 他批评强化学习效率极低,认为 RL 像 "通过吸管吸取监督信号",噪声很大且容易受干扰,人类并不真正使用 RL 进行智力任务,需要第 4、5、6 层新的学习机制;
3. 提出 "认知核心" 概念,建议通过精简 LLMs、降低记忆能力来提高泛化能力,预测未来模型将先变大再变小,最终收敛向更小、更专注的认知内核。
https://mp.weixin.qq.com/s/3OUQtqM8cr-mqHMNj7Zadw
👇加入 AGI 数据库,AI 智能问答

👇订阅下方合集, 获取每日推送
<