AI 每日速递 20260112

生成式AI

一、GPT-5.2刷新了一项新纪录,AI「能力过剩」时代或到来

1. GPT-5.2结合Poetiq元系统在ARC-AGI-2基准测试上达75%准确率,超越人类平均水平60%,每题成本不到8美元;

2. OpenAI官方预测2026年将进入"能力过剩"时代,模型能力与实际使用方式存在巨大断层,AGI进展不再仅取决于模型突破;

3. 未来AI竞争将转向系统、流程与人机协同,重点投入应用层、医疗商业场景,而非单纯的模型参数竞争。

GPT-5.2考赢人类!OpenAI警告:大模型能力已过剩,AGI天花板不是AI-AI Express News

二、xAI员工用Claude写代码?Anthropic反手拔马斯克网线

1. Anthropic切断xAI等竞争对手通过Cursor访问Claude的权限,xAI内部工程师长期依赖Claude编程被迫转向自研;

2. OpenAI立即与OpenCode合作接入Codex,形成反差,Anthropic封闭策略被批评错失定义Agent时代底层标准的窗口期;

3. 事件揭示AI工具正从中立基础设施变为阵营武器,核心能力不能外包已成科技公司生死攸关的战略共识。

笑死!xAI员工竟用Claude写代码?这回Anthropic反手拔了马斯克的网线-AI Express News

三、马斯克宣布七天内开源 X 平台算法,并将每 4 周持续更新

1. 马斯克宣布7天内开源X最新推荐算法,覆盖信息流与广告代码,每4周持续更新并附开发者说明,直指社交媒体算法黑箱机制;

2. 新算法由xAI从零重建,运行在Colossus数据中心2万多块GPU上,Grok实时参与内容判断,目标是"无粉丝的好内容也应被看见";

3. 上线后用户停留时间提升20%,这是人类首个规则明确的社交媒体平台,算法不透明不再是默认选项。

【突发】马斯克宣布七天内开源 X 平台算法,社交媒体生态迎来巨变?-AI Express News

四、因为AI编程,Tailwind CSS流量下降 40%,收入损失 80%

1. Tailwind CSS创始人Adam Wathan透露已裁掉75%团队,虽然周下载量超2600万次比以往更受欢迎,但AI导致文档访问量下降40%;

2. AI编程工具使开发者不再查阅文档,直接生成代码,切断了"文档引流→付费产品转化"的商业闭环,收入下降近80%;

3. 谷歌、Cursor、Shopify等多家公司伸出援手提供赞助,事件揭示开源项目在AI时代面临"用户变成AI"的商业模式危机。

因为AI编程,Tailwind CSS差点死了-AI Express News

前沿科技

五、具身新形态,追觅CES的新扫地机、割草机、洗护机器人

1. 追觅在CES展出AI具身洗护机器人可自主完成从脏衣篓拾取到洗涤烘干全流程,具身割草机器人能浇水拾取整理;

2. "具身智能新物种"采用四足轮腿+机械臂设计,可跨越门槛上下楼梯,承担叠衣倒垃圾等家务并整合居家养老服务模块;

3. 追觅将具身能力应用于扫地机、割草机、洗护机、泳池机器人等成熟品类,被评为"具身智能家庭化量产落地最快选手"。

起猛了,追觅的扫地机、割草机、洗护机器人在CES成精了!-AI Express News

六、提速1000万倍!清华用AI加速药物发现筛选,登Science

1. 清华大学团队提出DrugCLIP框架,将虚拟筛选重新定义为密集检索任务,速度比传统分子对接方法快1000万倍;

2. 基于3万亿Token中英文语料训练,采用ProFSA框架生成550万对训练样本,在LIT-PCBA数据集筛选仅需0.023秒;

3. 完成超10万亿次蛋白-配体打分计算,构建GenomeScreenDB数据库覆盖近1万个人类靶点,湿实验命中率达15%-17.5%。

编辑文章 「提速1000万倍!清华团队登上Science:用AI加速药物发现筛选」 ‹ AI Express News

报告观点

七、YC 内部复盘:一套可复用的AI原生公司构建路径逐渐形成

1. YC Winter26批次中Anthropic首次超过OpenAI成为创始人最常使用API,占比超52%,Gemini迅速攀升至23%;

2. AI经济正在稳定下来,模型层、应用层和基础设施层清晰分化,当模型彼此商品化真正竞争将转向谁能把模型用成产品;

3. YC复盘认为即使算力过剩类似电信泡沫,过度建设的基础设施最终将催生应用层公司,初创公司正处于部署阶段起点。

喝点VC|YC 内部内部复盘:AI 正在进入稳定期,并逐渐形成一套可复用的AI原生公司构建路径-AI Express News

八、5亿美元融资之后,杨植麟首次深度分享Kimi的技术重点

1. 月之暗面获5亿美元融资后现金储备超100亿人民币,杨植麟分享2025年技术路线围绕提升Token Efficiency和扩展长上下文;

2. 研发Muon二阶优化器实现两倍Token效率提升,KimiLinear架构在长程任务上首次让线性注意力超越全注意力,效率提升6-10倍;

3. Kimi K2在HLE基准测试达45%准确率超越OpenAI,强调做模型本质是创造世界观,每个token都是独一无二的。

5亿美元融资之后,杨植麟首次深度分享Kimi的技术重点(含演讲全文)-AI Express News

九、Anthropic 再发长文:首次详细揭秘Agent的评估全过程

1. Anthropic总结Claude Code等Agent开发经验,提出结合代码、模型和人工三种评分器的评估方法,区分能力评估与衰退评估;

2. 评估框架包含任务、尝试、评分器、记录、结果五大要素,使用pass@k和pass^k两个指标分别衡量"找到解"和"稳定性";

3. 强调从20-50个真实失败案例开始构建评估,通过检查记录验证评估有效性,避免"头痛医头脚痛医脚"的被动循环。

Anthropic 再发长文:首次详细揭秘Agent的评估全过程「Claude code开发过程的经验总结」-AI Express News

十、唐杰、杨强、杨植麟、林俊旸和姚顺雨坐一起,都聊了啥?

1. AGI-Next峰会汇聚智谱唐杰、月之暗面杨植麟、通义千问林俊旸和腾讯AI首席科学家姚顺雨,共识从"聊天机器人"进化为"干活的智能体";

2. 唐杰提出RLVR可验证奖励强化学习和"机器睡眠"构想,林俊旸展示Qwen-3混合架构和理解-生成一体化,姚顺雨预言自主学习"渗透";

3. 圆桌讨论中美差距,姚顺雨批评"榜单文化"呼吁关注正确之事,认为中国需要冒险精神而非单纯复现能力。

刚刚,唐杰、杨强、杨植麟、林俊旸和刚回国的姚顺雨坐一起都聊了啥?-AI Express News

【原文链接】https://mp.weixin.qq.com/s/j3GMAkrZJPRe-vEhEWippg

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容