共计 3116 个字符,预计需要花费 8 分钟才能阅读完成。
生成式 AI
一、英伟达亮相首片用于 AI 的「美国造」Blackwell 芯片晶圆
1. 英伟达与台积电在美国亚利桑那工厂历史性亮相首片 Blackwell 芯片晶圆,系 列芯片 首次实现「美国本土造」;
2. 台积电亚利桑那工厂总投资 1650 亿美元,将生产 2 纳米、3 纳米、4 纳米和 A16 等先进制程芯片;
3. Blackwell 芯片采用 NVIDIA 与 TSMC 合作定制 4NP 工艺,拥有 2080 亿晶体管,两个子芯片通过 NV-HBI 连接速度达 10TB/s。
https://mp.weixin.qq.com/s/Z-EhdEAoaT_zrMdDiTeqEw
二、Anthropic 发布了 Agent Skills,提示词、素材按需加载
1. Anthropic 发布 Agent Skills 功能,允许将提示词、代码包等专业能力打包成可按需加载的 skills,支持多个 skills 叠加且 Claude 自动识别所需能力;
2. Skills 可在 Claude apps、Claude Code 和 API 三个平台通用移植,包含 SKILL.md 核心指令、可执行脚本文件和资源文件,仅在需要时加载最小必要信息;
3. 官方预设包括 docx、xlsx、pptx、pdf 等 9 个 skills,用户可自定义上传,还提供 skill-creator 辅助创建新 skills。
https://mp.weixin.qq.com/s/n9Q5GuKIUQYS21_wF6YUKQ
三、李飞飞新「世界模型」问世!单张 H100 实时生成 3D 世界
1. 李飞飞 World Labs 发布实时生成式世界模型 RTFM,仅需单块 H100 GPU 即可实时渲染持久且 3D 一致的世界,无论真实场景还是想象空间;
2. RTFM 采用自回归扩散 Transformer 架构,通过端到端学习大规模视频数据,无需构建显式 3D 表征,直接从 2D 图像生成新视角图像,学会模拟反射、阴影等复杂效果;
3. 模型通过带位姿的帧作为空间记忆实现无限持久性,配合 "上下文调度" 技术,可在长时间交互中保持大型世界几何形状持久性。
https://mp.weixin.qq.com/s/NaB4lEDRPqsk2arBCduyUA
四、Manus 1.5 测试,搭网页、调 Bug、检测、自动上线全包
1. Manus 推出 1.5 版本,引入具备操作能力的 "内建浏览器",允许 AI 像用户一样点击网页按钮、测试功能、修复 bug,将上线部署、网页测试等传统人工环节纳入 Agent 执行能力;
2. 新增 Library 文件库统一管理生成内容,开放多人进入同一 Agent 会话协同编辑,平均任务完成时长从 15 分 36 秒缩短至 3 分 43 秒;
3. 实测通过自然语言完全无代码完成音乐网页应用构建,包括歌词改写、情绪调节、音频上传等交互功能,支持点击式重写和实时刷新。
https://mp.weixin.qq.com/s/IvYeyEKuB4ajwP2Hf_GPoQ
五、Windows 11 大更新:AI 操控电脑,还有 Manus 强势上岗
1. Windows 11 大更新引入 "Hey Copilot" 语音唤醒功能和 Copilot Vision 屏幕理解能力,可实时查看屏幕内容并手把手教用户操作;
2. Copilot Actions 可在本地文件上执行操作如整理照片、提取 PDF 信息等,Copilot Connectors 打通 OneDrive、Outlook 和 Google 全家桶;
3. 文件资源管理器集成 Manus AI 操作,可右键文档选择 "使用 Manus 创建网站" 自动生成网站,还整合 Filmora 视频编辑和 Zoom 会议安排功能。
https://mp.weixin.qq.com/s/KW7uY2JT05EIm1sJ1JKSAg
六、百度发布并开源自研多模态文档解析模型 PaddleOCR-VL
1. 百度开源 PaddleOCR-VL 多模态文档解析模型,仅 0.9B 参数量在 OmniDocBench V1.5 榜单获 92.6 分全球第一,在文本识别、公式识别、表格理解、阅读顺序四大核心能力全部拿下 SOTA;
2. 模型支持 109 种语言,覆盖手写、竖排、艺术字体等复杂形态,公式识别 CDM 得分 0.9453,表格理解得分 89.8,阅读顺序预测误差仅 0.043;
3. 采用两阶段架构,融合 NaViT 动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,在单张 A100 上推理速度达 1881token/s,发布 16 小时内登顶 HuggingFace Trending 全球第一。
https://mp.weixin.qq.com/s/LDVTXB_LMCLJ2uFpUJdDxA
前沿科技
七、Hassabis 官宣用 AI 点燃「人造太阳」!无限能源时代提速
1. Google DeepMind 与核聚变能源巨头 CFS 合作,利用 AI 加速 "人造太阳"SPARC 装置研发,DeepMind 开发的 TORAX 等离子体模拟器可运行数百万次虚拟实验测试托卡马克装置方案;
2. 合作聚焦三大方向:构建快速精准可微分的聚变等离子体模拟系统、寻找最大化聚变能量输出的高效路径、运用强化学习探索实时控制策略;
3. TORAX 能在 CPU 与 GPU 灵活运行并无缝集成 AI 模型,已成为 CFS 日常研究重要工具,通过强化学习 AI Agent 可在模拟环境中探索海量潜在运行场景。
https://mp.weixin.qq.com/s/0rtvxXPfCHsqKgvnSLjeTg
报告观点
八、哈佛新研究追踪 6200 万人,提示 AI「入侵职场」的真相
1. 哈佛大学研究通过追踪近 6200 万劳动者、超 2.45 亿招聘信息发现,采用 AI 的企业初级岗位显著下降,主要通过放缓招聘而非裁员实现,工作越来越难找;
2. AI 冲击最大的人群是第 2 档(强校)和第 3 档(普通名校)毕业生,顶尖精英大学和末流院校反而受影响较小,呈现 "U 型" 格局;
3. 批发零售行业初级岗位风险最大,内容审核员、财会行政等办公室底层职位面临 "去人化",技能呈现 "两极化" 趋势。
https://mp.weixin.qq.com/s/1mpHKJem1QHP3tSX54O0qA
九、Reddit 创始人预警「死亡互联网理论」,奥特曼公开发声
1. Reddit 联合创始人 Ohanian 称 "如今互联网大部分已经死了",被 AI 生成内容淹没失去真实生命力,OpenAI CEO Sam Altman 认为该理论可能有道理,现在存在很多大模型驱动的账号;
2. Cloudflare 监测显示机器人流量约占整体应用流量 31%,Imperva 报告显示 2024 年自动化流量达 51%,Graphite 数据显示 2024 年 11 月 AI 生成文章数量首次超过人类撰写文章;
3. 牛津大学等研究机构论文指出,模型在 AI 生成数据上继续训练会导致 "模型崩溃",AI 内容成为训练数据可能带来模型能力下降。
https://mp.weixin.qq.com/s/rhMBVub7LhkzBqDNUH_yMQ
十、Andrej Karpathy:智能体都在装样子,AGI 十年也出不来
1. AI 大神 Andrej Karpathy 在 2 小时采访中直言 "智能体都在装样子,强化学习很糟糕",认为 AGI 仍需十年时间,现有 Agent 存在诸多认知缺陷;
2. Karpathy 强调强化学习通过 "吸管吸取监督" 方式噪声极大,人类并不真正使用强化学习,预训练是 "糟糕的进化",LLM 被预训练文档记忆所困扰;
3. 他预计 AGI 将融入约 2%GDP 增长而非爆炸式增长,认为 AI 本质是计算的延伸和自动化进程的延续,教育是让人类在 AI 时代保持价值的关键。