AI 每日速递 20251023

62次阅读
没有评论

共计 3284 个字符,预计需要花费 9 分钟才能阅读完成。

生成式 AI

一、OpenAI 发布 AI 浏览器 ChatGPT Atlas,基于 Chromium

1. OpenAI 发布 AI 浏览器 ChatGPT Atlas,基于 Chromium 内核,目前仅推出 macOS 版并对所有用户免费开放,后续将推出 Windows 及移动端版本;

2. Atlas 核心功能是将 ChatGPT 深度集成到浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆功能和智能体模式,可执行订票、购物等复杂任务;

3. OpenAI 强调安全措施包括禁止运行代码、访问敏感网站时暂停确认等,但承认智能体仍存在被恶意指令误导的风险。

https://mp.weixin.qq.com/s/yU4abbrkdDpQpwf9D7BNug

二、Claude 正式发布了桌面版,同时支持 Mac 和 Windows

1. Claude 正式发布桌面版,同时支持 Mac 和 Windows 系统,提供全局快捷键(Mac 双击 Option 随时唤醒)、窗口分享、语音输入(按 Caps Lock 说话)和工具连接四大核心功能;

2. 该桌面版支持截图、窗口共享和文件拖拽,能直接查看用户屏幕内容,并可连接代码编辑器、本地文件和数据库等工具;

3. 与 OpenAI 的 Atlas 浏览器不同,Claude Desktop 是常规桌面助手而非具备 Agent Mode 的浏览器,但操作顺手且实用性强。

https://mp.weixin.qq.com/s/lHvIhTcmTClGKepPdOoByA

三、谷歌 AI Studio 的 Built 模式更新,小白可用 Vibe Coding

1. 谷歌 AI Studio 推出全新 vibeCoding体验,用户通过点击 Build 一键生成 AI 应用,界面提供各种应用建议并支持 "手气不错" 按钮随机生成创意想法;

2. 该功能使用 Gemini 2.5 Pro 制定计划并生成文件,支持免费使用无需信用卡,用户可在生成过程中实时编辑代码并通过 Cloud Run 部署或下载;

3. 平台还提供 AI 智能推荐功能,基于代码上下文由 2.5 Flashlight 模型分析后自动生成改进建议,操作直观简单适合编程小白。

https://mp.weixin.qq.com/s/LFfisD9CQkuegt8Ta4iccA

四、混元世界模型 1.1 开源:支持多视图及视频输入,单卡部署

1. 腾讯混元世界模型 1.1 正式开源,首次支持多模态先验注入(相机位姿、内参、深度图)和多任务统一输出(点云、深度、相机参数、表面法线、3D 高斯点),解决 1.0 版本仅支持文本或单图输入的局限;

2. 该模型采用纯前馈架构实现秒级推理,处理 8 -32 视图输入仅需 1 秒,单卡即可部署,在 SimplerEnv、CALVIN 等仿真器及真实物理世界任务中性能显著超越现有方法;

3. 模型基于统一架构实现点云、深度、相机、表面法线和新视角合成等多种 3D 几何预测,已完全开源并提供 HuggingFace 在线 demo 体验。

https://mp.weixin.qq.com/s/V1TToEEltM1tisp_P4b2eg

五、Baichuan-M2 Plus 成为业内首个循证增强的医疗大模型

1. 百川智能发布 Baichuan-M2 Plus,成为业内首个循证增强医疗大模型,通过首创 "六源循证范式" 构建权威医学知识体系,幻觉率比 DeepSeek-R1 低 3 倍,可信度比肩资深临床专家;

2. 该模型在 USMLE 美国执业医师考试取得 97 分、中国执医考试 568 分、临床医学综合能力考试 282 分,医学知识运用能力远超人类平均水平,多国医考准确率均在 85% 以上;

3. M2 Plus 采用 PICO 检索框架实现精准循证,通过强化学习驱动的多层查询生成、语义感知匹配和证据排序机制,确保回答句句有据可回溯可验证,已全面上线百小应 APP 并开放 API 接口。

https://mp.weixin.qq.com/s/qtmx66_4cSxku-TzaIPNCg

六、华为打通苹果设备,鸿蒙 6 正式发布,AI 迎来重大更新

1. 华为发布 HarmonyOS 6,实现与苹果 iOS/iPadOS/macOS 互传,纯血鸿蒙终端设备突破 2300 万台,头部应用全面覆盖,应用生态从 "能用" 跨越到 "好用";

2. 小艺 AI 能力升级,支持速记、AI 修图、自动订机票购物等功能,深度研究智能体可搜索专业知识并生成 PPT,支持 16 种方言交互,还可调用第三方智能体;

3. 系统优化并行计算和端云协同能力,电商平台抢购到支付速度提高 20%,锁屏艺术签名利用 AI 自动构图定制壁纸,第三方应用可内嵌 Agent 智能体提供独特体验。

https://mp.weixin.qq.com/s/ZTl8MhPjyLMeIkuCq4WCTw

前沿科技

七、Dexmal 原力灵机开源 Dexbotic,一站式的 VLA 代码库

1. Dexmal 原力灵机推出开源 VLA 代码库 Dexbotic,基于 PyTorch 框架开发,采用 Data、Model、Experiment 三大核心组件架构,提供统一模块化 VLA 框架和实验导向型开发框架;

2. 该代码库同时支持 π0、OpenVLA-OFT、CogACT、MemoryVLA 等多个主流 VLA 算法,用户只需配置一次环境即可在各类仿真环境中复现算法,解决行业研发分散化和复现公平性欠缺痛点;

3. Dexbotic 支持云端与本地一体化训练,适配 平台,同时推出首款开源硬件 DOS-W1,采用快拆结构和可替换模块降低使用门槛。

https://mp.weixin.qq.com/s/lUBMDttS98v5PEuXiPHEsw

八、全球首款万元以下人形机器人来了,21 自由度能说会走

1. 松延动力推出全球首款万元以内消费级人形机器人 Bumi 小布米,双十一京东首发售价 9998 元,身高 94 厘米重 12 公斤,拥有 21 个自由度比肩高端机型;

2. 该机器人采用 48V 电池平台支持 1 - 2 小时续航,搭载自研伺服电机和深度强化学习算法,能够稳定行走、跳舞和完成复杂动作,支持语音交互和图形化编程零代码门槛;

3. 小布米定位教育和陪伴 场景,松延动力已完成 6 轮融资,N2 机型在人形半马比赛 项目 夺冠并成为销量破千的人形机器人公司,实现了从实验室到客厅的消费级转变。

https://mp.weixin.qq.com/s/tsrjUT1LYITVz62f7tyPdg

九、三星首款 XR 头显 Galaxy XR,一万三硬刚苹果 Vision Pro

1. 三星发布首款旗舰 XR 头显 Galaxy XR,售价 1799.99 美元约合人民币 1.28 万元(仅为 Vision Pro 一半),重 545 克比 Vision Pro 轻 1 /4,搭载 3552×3840 分辨率 Micro-OLED 屏和骁龙 XR2+Gen 2 平台;

2. 该设备首款搭载 Android XR 平台并内置 Gemini AI 助手,DCI-P3 色域覆盖 96% 超过 Vision Pro,支持 3D 照片视频拍摄、透视模式随圈随搜和沉浸式观赛,续航 2 -2.5 小时;

3. Galaxy XR 配备 18 个传感器实现头部手部眼部精准追踪,支持虹膜识别和瞳距调节,三星与谷歌还在合作开发搭载 Gemini 的智能眼镜,为 XR 市场注入新选择。

https://mp.weixin.qq.com/s/1NaAziux5soh4IJ8p0Ksuw

报告观点

十、Manus 研究员:一年半开发复盘,关于 Agent 的理解错位

1. 前 Manus 研究员言午系统复盘一年半 AI 开发实践,指出 AI Agent 能力质变的关键不在底层模型智力增长,而在于围绕模型设计的行之有效的 "认知流程";

2. 文章通过 "学霸五个成长阶段" 比喻详解 Agent 核心能力演进,阐述思维链、自我反思、规划和工具使用等流程如何用结构对抗混沌、用迭代对抗遗忘、用交互对抗虚无;

3. 作者强调开发者角色从 "提示词工程师" 转变为 "Agent 流程架构师",未来竞争力核心在于智能流程的优劣而非模型参数大小,并从控制论和信息论视角揭示 Agent 有效性的科学基石。

https://mp.weixin.qq.com/s/mtJBQjafKoAZ1-tklexO2Q

正文完
 0
评论(没有评论)