生成式AI
一、美国BIS修改出口管制条例,或为H200芯片销往中国铺路
1. 美国商务部工业和安全局修改出口管制条例,将高性能芯片限制放宽至TPP低于21000和DRAM带宽低于6500GB/s,为英伟达H200和AMD MI325X出口打开法律空间;
2. 新规要求申请人证明美国市场有足够供应且出口不超过美国总销量50%,预计2026年H200可为英伟达贡献超476亿美元营收,其中中国市场近160亿美元;
3. 同时美国众议院以369票通过《远程访问安全法案》,限制通过云平台远程接入获取先进算力以训练AI模型,可能冲击海外合建数据中心项目。
https://mp.weixin.qq.com/s/Q-sAqeuFoi-u1l6O7g06nA
二、谷歌Veo 3.1教Sora做视频,角色0变形,4K竖屏直接满分
1. 谷歌Veo 3.1迎来重磅升级,支持"素材生视频"功能,通过上传素材图片和文本指令即可生成高质量视频,角色一致性达到前所未有高度;
2. 新版本支持原生9:16竖屏输出和业界领先的1080p、4K超分辨率技术,无需后期裁剪和画质损失,直接适配YouTube Shorts等移动端平台;
3. 首次在YouTube Shorts和YouTube Create应用中引入该功能,同步向Flow、Gemini API、Vertex AI和Google Vids推送增强版。
https://mp.weixin.qq.com/s/1eDg2GOKZ9urgCf5FnqinQ
三、智谱联合华为,开源首个国产芯片训练的多模态SOTA模型
1. 智谱联合华为开源新一代图像生成模型GLM-Image,基于昇腾Atlas 800T A2设备和昇思MindSpore框架完成全流程训练,是首个在国产芯片上完成的SOTA多模态模型;
2. 采用创新"自回归+扩散解码器"混合架构,在CVTG-2K和LongText-Bench榜单获得开源第一,中文文字渲染成绩达0.979;
3. API调用生成一张图片仅需0.1元,特别擅长海报、PPT、科普图等知识密集型场景及汉字生成任务,已在GitHub和Hugging Face开源。
https://mp.weixin.qq.com/s/89kksB37sUs-mmG20AW5Fw
四、PixVerse R1实时世界模型发布:视频媒介的交互时代来了
1. 爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型PixVerse R1,用户可通过文字或语音实时干预视频生成过程,无需等待进度条;
2. 基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎,将视频生成从"固定片段"转变为"无限可视化流";
3. 定义"Playable Reality(可玩现实)"新形态,让视频成为可被实时干预、持续存在的过程,目前处于内测阶段采用内测码和定向邀请机制。
https://mp.weixin.qq.com/s/mQ86ln_mKpRMQ9h2xooslw
五、Vidu发布一键生成AI MV功能:主流音乐机构的叙事权让渡
1. Vidu AI开放平台发布"一键生成MV"功能,用户仅需提交音乐、参考图像与文本指令,系统即可全自动输出叙事连贯、音画同步的高完成度MV;
2. 构建深度协同的多智能体系统包括导演智能体、分镜脚本智能体、视觉生成智能体和剪辑合成智能体,在分钟级时间内输出完整成片;
3. "多图参考生视频"技术允许上传至多7张参考图,系统能在长达五分钟视频中精确复刻人物特征与美学风格,实现帧级别音画融合。
https://mp.weixin.qq.com/s/DNHsNfUyBEtCJpnxQZLnuQ
六、1X 公司全新「大脑」1X World Model用在其机器人NEO上
1. 1X公司发布家用人形机器人NEO的全新"大脑"1X World Model,通过观看海量网络视频和人类第一视角实操录像理解物理世界运作规律;
2. 基于140亿参数生成式视频模型,采用多阶段训练策略包括900小时人类第一视角中期训练和70小时具身微调,接到指令后先生成成功完成任务的视频再倒推动作;
3. 逆动力学模型(IDM)在400小时未经过滤机器人数据上训练,能从生成视频中提取对应动作轨迹,官方推文浏览量已突破500万。
https://mp.weixin.qq.com/s/xFODYAk17WiRBp6eGAvRAw
七、英雄联盟神秘选手,95%胜率制霸韩服,被怀疑是马斯克AI
1. 1月11日韩服突现神秘玩家仅用51小时完成56局对局,以52胜4败、综合胜率92%战绩从钻石以下飙升至韩服榜前列,登顶时胜率高达95%;
2. 该神秘账号在56场排位赛中选用22名不同英雄,对线胜率86%断层领先韩服排名前十选手,结合马斯克"Grok 5挑战全球顶级战队"宣战引发玩家热议;
3. 2025年T1战队斩获全球总冠军后马斯克宣战,传奇中单Faker回应"2026年人类大概率能守住尊严",账号真实身份至今仍是谜团。
https://mp.weixin.qq.com/s/36pmKdi8EJWM3SYrSBm3IQ
前沿科技
八、谷歌发布 MedGemma 1.5,支持CT和 MRI三维影像解读
1. Google Research发布MedGemma 1.5 4B版本,首次支持高维医学影像分析包括CT和MRI三维体数据以及全切片数字病理图像;
2. MRI疾病发现分类准确率从51%提升至65%,解剖结构定位精度从3%跃升至38%,MedQA准确率从64%提高到69%,EHRQA准确率从68%飙升至90%;
3. 同步推出MedASR语音识别模型,在胸部X光报告口述场景中词错误率仅5.2%,比通用模型Whisper低82%,现已上线Hugging Face和Vertex AI。
https://mp.weixin.qq.com/s/9CsNVDPc1BrTKeZQ-1bGkA
报告观点
九、谷歌Cloud AI负责人:AI时代关于软件工程的5个残酷的问题
1. 谷歌Cloud AI总监Addy Osmani提出五大关键问题:初级工程师还被需要吗、基本功会被AI废掉吗、会沦为"代码清洁工"吗、专才正变得更危险、大学CS专业还有必要读吗;
2. 哈佛研究显示当公司引入生成式AI后,初级开发者岗位数量在六个季度内下降约9%-10%,而高级工程师就业几乎没有变化,大科技公司招聘应届生减少50%;
3. 建议初级工程师构建AI集成作品集并手动编写关键算法,资深工程师注重架构审查适应"代理式"工程环境,通才将比专才更具竞争力。
https://mp.weixin.qq.com/s/mrL8WBQa5tm1crCdnPEvEQ
【原文链接】https://mp.weixin.qq.com/s/g2xrQN3Rfs6xxIuo84RC6A












暂无评论内容