共计 2662 个字符,预计需要花费 7 分钟才能阅读完成。
生成式 AI
一、ChatGPT "语音模式"(Voice Mode)全面整合至主聊天界面
1. OpenAI 正式宣布将原独立的 "语音模式" 全面整合至主聊天界面,实现语音与文本交互深度融合,用户无需切换模式即可同步获取语音应答、视觉呈现与文字转录服务;
2. 新版本在用户查询时既能提供自然流畅的语音回应,又能实时生成对应的地图、图表、图片等视觉内容,同时自动完成语音转文字转录;
3. OpenAI 特别保留个性化选择空间,在设置菜单中增设模式切换开关,偏好沉浸式音频体验的用户可一键恢复旧版独立语音模式。
https://mp.weixin.qq.com/s/xapHjnzT35PLbhOJ5Q_wdw
二、ChatGPT 网页端内测一项重要更新:全新的 App Directory
1. OpenAI 在 ChatGPT 网页端内测全新 App Directory,首次让开发者构建的第三方应用以系统化方式展示,支持用户浏览、搜索和一键添加使用;
2. 新版目录以卡片形式呈现来自不同开发者的 AI 应用,覆盖购物、生产力、教育、旅行等多个场景,用户可直接在 ChatGPT 内完成调用实现 "即点即用";
3. 基于 ChatGPT 4 亿周活用户和每分钟 60 亿 tokens 处理量,应用目录将显著改变 AI 应用分发方式,推动 ChatGPT 从 "AI 对话工具" 向完整 "AI 应用商店" 演进。
https://mp.weixin.qq.com/s/oyHb6O7KXGvNHd_SR42JoA
三、FLUX.2 开源!AI 生图 DeepSeek 能否平替谷歌 Nano Banana?
1. 德国黑森林实验室发布 FLUX.2 图像生成模型家族,可同时参考多达 10 张图片保持字符、产品和风格一致性,支持最高 4 百万分辨率图像编辑;
2. FLUX.2 系列发布 3 款模型,开源的 FLUX.2 [dev]是 32B 参数量模型,此前 Flux.1 [dev]在 Hugging Face 上受欢迎度仅次于 DeepSeek-R1;
3. 模型基于潜在流匹配架构,结合 Mistral-3 24B 视觉语言模型与整流流式 Transformer,实测在超写实图像生成上表现突出但暂不支持中文渲染。
https://mp.weixin.qq.com/s/qnwfFsfTs7uelOIUTqwrVQ
四、Character AI 为孩子上线互动 "Stories",而不是开放式聊天
1. Character.AI 推出全新 "故事" 功能,未满 18 岁用户将无法继续使用聊天机器人服务,转而提供更为结构化的引导式互动方式;
2. CEO 坦言 "对于 18 岁以下用户来说,开放式聊天可能并非合适的产品",此决策基于对 AI 聊天机器人可能带来的心理健康风险的担忧;
3. 加利福尼亚州成为美国首个对 AI 伴侣进行监管的州,联邦层面也有议员提出全国性法案旨在全面禁止未成年人使用 AI 伴侣。
https://mp.weixin.qq.com/s/2e2uBk5GfilO0Nljgxl2mg
五、TRAE 国内版上线 SOLO 模式,更新多任务并行、Plan 模式等
1. TRAE 国内版正式上线 SOLO 模式,带来 SOLO Coder、Plan 模式、多任务并行、代码变更工具 DiffView、上下文压缩等核心能力;
2. SOLO 模式定位为 "响应感知的编程智能体",支持检索 10 万个代码文件的超大上下文,通过全新三栏布局实现多任务并行开发;
3. 核心设计理念是 "All in One" 统一开发过程中所有元素,让开发者专注于指导和监督 AI 工作,而非实时 "配对"AI 编程助手。
https://mp.weixin.qq.com/s/_B4-wqcZDLcheJVj1wRL1g
六、腾讯混元 3D 创作引擎正式推出国际站,模型 API 同步上线
1. 腾讯混元 3D 创作引擎正式推出国际站,模型 API 在腾讯云国际站同步上线面向国际用户开放,社区下载量超 300 万是全球最受欢迎的 3D 开源模型;
2. 最新 Hunyuan3D 3.0 版本首创 3D-DiT 分级雕刻模型,建模精度较前代提升 3 倍,支持 1536³几何分辨率与 36 亿体素超高清建模,效果保持业界 SOTA;
3. 目前已有超过 150 家企业通过腾讯云接入,涵盖游戏制作、电商宣传、影视特效、3D 打印等领域,传统 3D 制作周期从数天缩短至分钟级。
https://mp.weixin.qq.com/s/9h5nNiOFcNBhYq6JWU06tA
七、Skywork 上线 "专业数据" 模式,覆盖 430 家权威机构数据源
1. 天工 Skywork 全新上线 "专业数据" 模式,已连接 430 家权威机构数据源,覆盖政府开放数据、国际组织、学术科研、金融市场、气象环境等多个关键领域;
2. 接入世界银行、IMF、WHO、FDA、Google Scholar、NASA 等核心数据源,通过跨源统一回答与聚合实现一次检索整合权威数据;
3. 支持指定特定专业数据库回答确保无幻觉内容生成,所有答案自动附上数据来源信息确保回答可追溯、更透明,提升决策和报告可靠性。
https://mp.weixin.qq.com/s/jQtil9HkMwdxIoMUAyc2KA
报告观点
八、Ilya 最新深度访谈:我们正在从 Scaling 时代,走向研究时代
1. Ilya Sutskever 在 1 个半小时深度访谈中提出 "Scaling 时代已终结,我们正走向研究时代",认为当前技术路线无法实现 AGI;
2. 他指出模型泛化能力是核心瓶颈远逊人类,即便用所有编程竞赛题目训练模型仍无法形成真正 "解题直觉",评估分数光鲜但实际性能滞后;
3. Ilya 预测 5 -20 年内将出现能像人类一样学习并超越人类的 AI 系统,强调需要为模型内置类似人类的判断直觉和稳定价值感受器。
https://mp.weixin.qq.com/s/MAr50qlL2-LEWIb7JgIs7Q
九、英伟达:祝贺谷歌自研 TPU 成功,但我们的 GPU 领先一代
1. 谷歌开始向 Meta 等大型机构推介在其数据中心部署 TPU 方案,Meta 计划 2027 年斥资数十亿美元使用 TPU,谷歌云预测此业务可拿下英伟达 10% 年营收;
2. 英伟达罕见紧急发声回应,强调自己是 "唯一能够兼容所有 AI 模型、覆盖所有计算场景的硬件平台",并积极通过投资拉拢 Anthropic、OpenAI 等大客户;
3. 黄仁勋在内部会议坦言 "英伟达撑着整个地球",业绩好被说助长泡沫、业绩差会被当作泡沫破裂证据,市场预期难以满足。