生成式AI
一、Claude推出多智能体代码审查系统,内部同款接管PR抓Bug
1. Anthropic为Claude Code引入多智能体代码审查系统,每次PR自动调度智能体团队结合完整代码库上下文并行寻找缺陷,部署后获得实质性审查意见的PR比例从16%飙升至54%;
2. 超千行大型PR中84%会收到审查意见平均发现7.5个问题,被标记为不正确的审查结果不到1%,曾在一行日常代码更改中发现可能破坏服务身份验证的严重问题;
3. 审查基于Token计费平均每次15至25美元,支持通过CLAUDE.md和REVIEW.md自定义审查规则,目前面向团队版和企业版用户提供研究预览。
https://www.aiexpress.news/51002.html
二、LeCun创办企业完成10.3亿美元种子轮,谢赛宁任首席科学官
1. 图灵奖得主Yann LeCun创办的AMI Labs宣布完成10.3亿美元种子轮融资估值达35亿美元,原FAIR工程主管Alex LeBrun担任CEO,团队分布在巴黎、纽约、蒙特利尔和新加坡;
2. 公司目标是构建基于JEPA架构的世界模型,让模型在抽象表示空间中预测而非逐像素生成,面向工业控制、机器人、可穿戴设备和医疗等高可靠性场景;
3. DiT架构提出者谢赛宁加盟担任首席科学官,CEO表示首个实际应用推出前至少需要一年研究时间,首个合作伙伴为医疗AI独角兽Nabla。
https://www.aiexpress.news/51003.html
三、微软发布Copilot Cowork全面接管Office,接入Claude模型
1. 微软发布Copilot Cowork全面接管Excel、Word、PPT和Outlook,采用Anthropic Claude模型驱动推理并复用Claude Cowork的智能体框架,可在后台持续推进十余个任务;
2. 四大核心场景包括自动整理一周日程、一条指令准备整场客户会议、深度调研公司生成三件套交付物、从竞品分析到产品发布全套执行计划;
3. 定价为M365企业版基础上额外30美元/月,新推出的E7套餐99美元/月,目前处于有限客户研究预览阶段,3月底通过Frontier计划扩大测试。
https://www.aiexpress.news/51005.html
四、混元开源首个面向世界模型的强化学习后训练框架WorldCompass
1. 腾讯混元3D团队开源业界首个面向世界模型的强化学习后训练框架WorldCompass,通过引入显式动作跟随奖励和视觉质量奖励解决预训练世界模型指令失效问题;
2. 三大核心创新:切片级采样降低计算复杂度提供细粒度奖励、基于3D基础模型的交互跟随评分与视觉质量评分互为正则防止奖励刷分、高效 RL 优化算法更稳、更快;
3. 在复合动作场景下交互准确率从20%提升至55%,在斯坦福WorldScore基准上取得更优评分,标志世界模型从预训练时代迈向RL精细化调优时代。
https://www.aiexpress.news/51013.html
五、智谱上线AutoClaw,一键安装本地版本,预置50+热门Skills
1. 智谱正式上线AutoClaw(澳龙),macOS和Windows均支持一键安装即享满血OpenClaw能力,自动接入飞书等即时通讯工具,提供免费额度零成本体验;
2. 内置智谱专为OpenClaw场景优化的Pony-Alpha-2模型,工具调用更稳任务推进更强,集成AutoGLM Browser-Use能力补齐复杂浏览器操作短板;
3. 封装50+主流Skills与API覆盖内容创作、办公、代码、营销、金融等场景,支持接入DeepSeek、Kimi、MiniMax、GLM等任意模型的API。
https://www.aiexpress.news/51019.html
六、美伊冲突曝Claude与Maven系统合作,24小时锁定千个目标
1. 外媒曝料美国军方在美伊冲突中利用Palantir的Maven智能系统嵌入Claude模型,首日解析150+信息流提供1000+打击选项,将目标规划从人类速度变为机器速度;
2. Maven系统整合卫星图像、无人机画面、截获通讯等数据源,Claude自动生成目标建议、精确坐标并按重要性排序,传统需数周的战斗计划变为实时行动;
3. 截至目前美以已打击超3000目标,乔治城大学研究发现使用Maven后原本2000人的工作量20人即可完成,尽管Claude已被五角大楼禁用但军方对该技术高度依赖。
https://www.aiexpress.news/51023.html
前沿科技
七、Figure机器人全程自主收拾客厅,仅补充数据即掌握新任务
1. 估值390亿美元的Figure发布最新进展,搭载Helix 02系统的机器人全程自主完成客厅整理,包括喷洒消毒液擦茶几、拾取归置杂物、摆正抱枕、精准按遥控器关机;
2. Helix 02采用三层系统架构:System 2负责语义推理任务拆解、System 1以200Hz将感知转化为全身关节目标、System 0以1kHz基于千小时人类运动数据训练的全身控制器;
3. 团队未研发新算法也未做场景定制,仅补充新数据即让系统掌握工具协同清洁、柔性物品操控、双手协同、物体抛接等复杂技能,替代了109504行手工C++控制代码。
https://www.aiexpress.news/51047.html
八、AI发布全球科学家社区O-DataMap,将科技研究铺成可导航地图
1. AI系统OALL(论论全球)发布O-DataMap,将散落在全球论文中的实验数据映射到二维坐标系中,横轴为研究对象尺度、纵轴为基础到商业化距离,首次将人类科技研究铺成可导航地图;
2. 三层使用场景:见天地通过图标大小和密度判断领域热度与成熟度、见领域定位单篇研究的知识谱系和影响力排名、见自己输入实验idea即可获得研究空白评估和期刊定位建议;
3. 地图实时生长,AI流水线持续解析新论文并映射进坐标系,输入学者姓名或论文可看到其影响力如何跨领域扩散,被硅谷投资圈称为科技研究领域的"谷歌地图"。
https://www.aiexpress.news/51057.html
报告观点
九、a16z全球AI产品Top100:OpenClaw开启通用Agent入口之争
1. a16z第六版全球AI产品Top100显示ChatGPT周活9亿用户遥遥领先,但Claude付费订阅同比增长超200%、Gemini增长258%,约20%ChatGPT用户同周也使用Gemini;
2. ChatGPT走超级应用路线覆盖旅行购物生活85+品类并测试广告,Claude聚焦专业用户拥有金融终端和开发者基础设施独占集成,两个平台仅11%应用重合;
3. OpenClaw成为GitHub star数最高项目超越React和Linux,Manus被Meta以约20亿美元收购,通用Agent与Vibe Coding工具正在重塑AI产品竞争格局。
https://www.aiexpress.news/51092.html
十、陶哲轩对谈OpenAI高管:试错成本趋零,AI正把数学变成重工业
1. 菲尔兹奖得主陶哲轩与OpenAI推理模型负责人Mark Chen对谈,OpenAI内部核心指标"自主运行刻度"已从去年的几分钟向几天迈进,模型犯错概率显著下降;
2. 陶哲轩表示AI已成为日常研究工具,繁琐计算直接外包给AI,埃尔德什问题长尾中已有二三十个在最低限度人类监督下被AI解决,数学界正迎来社区驱动研究新范式;
3. Mark Chen指出数学的形式化验证系统是强化学习的天然判官,提供了"无限次廉价试错"机制,但越是训练AI讨好人类的RLHF越容易削弱其硬核推理能力。
https://www.aiexpress.news/51112.html
<原文链接:https://mp.weixin.qq.com/s/sNiejtBt2rCttHrppU9wpw















暂无评论内容