腾讯研究院AI速递 20260209

生成式AI

一、Claude Opus 4.6发布,首次支持1M上下文与128K输出

1. Anthropic发布Claude Opus 4.6,在GDPval-AA知识工作评测中领先GPT-5.2约144 Elo,同时拿下Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp最高分;

2. Opus级模型首次支持1M token上下文窗口和128K token输出上限,在长上下文检索测试中达到76%,是Sonnet 4.5的四倍;

3. 产品线同步更新,Claude Code新增agent teams,Excel升级,PowerPoint发布research preview,API新增adaptive thinking和context compaction功能。

https://www.aiexpress.news/44922.html

二、OpenAI发布GPT-5.3-Codex,首个参与创造自己的模型

1. Claude Opus 4.6发布半小时后OpenAI推出GPT-5.3-Codex,在Terminal-Bench 2.0拿下77.3%直接夺回最高分,速度比5.2-Codex快25%;

2. 该模型是首个参与创造自己的模型,早期版本被用于debug自身训练过程、管理部署和分析评测结果;

3. OSWorld-Verified从38.2%跳至64.7%接近人类72%基准,网络安全CTF达77.6%,成为首个被标为High capability的网络安全模型。

https://www.aiexpress.news/44923.html

三、Claude Opus 4.6追加极速模式,非,速度提升价格

1. Anthropic发布Claude Opus 4.6极速模式,速度比标准版快2.5倍,已向Claude Code和API用户开放,Cursor、GitHub Copilot等平台首批支持;

2. Fast Mode定价显著提高,输入30美元/百万token,输出150美元/百万token,长上下文价格翻倍,2月16日前可享50%折扣;

3. 该模式适用于快速迭代代码修改和实时调试,建议在会话开始时开启以获得最佳成本效益,触发速率限制后会自动回退到标准版。

https://www.aiexpress.news/44924.html

四、神秘模型Pony Alpha线引热议,或为国产大模型新作

1. OpenRouter平台上线搜索排名第一的神秘匿名模型Pony Alpha,在编程、逻辑推理和角色扮演方面表现突出,可免费使用;

2. 网友猜测该模型可能是DeepSeek-V4、GLM新模型、Opus 5.3、Codex 4.6或Grok 4.2,众说纷纭尚无定论;

3. 该模型支持推理且有200K上下文,已有用户用它完成包含500行代码的完整Web应用,马年取名Pony暗示可能来自中国。

https://www.aiexpress.news/44926.html

五、字节上线Seedance 2.0,20%直接提升至90%

1. 字节跳动悄然上线Seedance 2.0,支持自分镜自运镜、音画同步生成、多镜头叙事和最多12个多模态参考文件;

2. 可用率从行业平均不到20%直接提升至90%以上,实际制作成本从理论的近五倍降至接近理论成本,彻底改变行业经济学;

3. 模型展现出"世界模型"雏形,能理解物理规律、因果关系和情绪匹配,AI视频竞争焦点将从技术转向好故事和好审美。

https://www.aiexpress.news/44927.html

六、腾讯开放WorkBuddy内测,全场景职场AI智能体上岗

1. 腾讯正式开放WorkBuddy内测,这是一款全场景职场AI智能体桌面工作台,可在本地电脑自主规划并执行多模态复杂任务;

2. 核心能力包括自动批量处理文件、生成文档/表格/PPT、数据深度分析、行业调研,内置多种模型切换和高危指令拦截功能;

3. 1月19日内测以来已服务超过2000名腾讯员工,面向HR、行政、运营、销售等非技术背景职场群体,解决AI工具使用门槛过高问题。

https://www.aiexpress.news/44928.html

七、Waymo联手DeepMind打造世界模型,模拟罕见驾驶场景

1. Waymo推出基于DeepMind Genie 3构建的世界模型,能生成高度逼真且可交互的3D环境,可模拟龙卷风、大象等极罕见场景;

2. 模型支持驾驶行为、场景布局和语言三种控制机制,可将普通行车记录视频转换为多模态仿真,展现Waymo Driver的"视角";

3. Waymo Driver已累计完成近2亿英里完全自动驾驶,该世界模型使系统能在虚拟世界中提前演练数十亿英里复杂场景。

https://www.aiexpress.news/44929.html

前沿科技

八、马斯克3小时对话透露计划:机器人将成"造钱永动机"

1. 马斯克透露SpaceX计划每年发射2-3万次,5年后太空算力将超全球总和,预测36个月内太空将成为AI算力部署最便宜的地方;

2. 特斯拉AI5芯片明年二季度量产,AI6芯片在其后不到一年推出,Optimus 3年产能百万台、4年产能千万台;

3. 马斯克称Optimus为"造钱永动机",断言美国若无突破性创新,中国将完全主导AI、电动汽车和人形机器人制造。

https://www.aiexpress.news/44930.html

报告观点

九、Arena.ai榜单:Opus 4.6双榜封神,Codex 5.3速度满分

1. Arena.ai权威榜单显示Claude Opus 4.6在代码、文本、专家三大竞技场全部登顶第一,代码竞技场比前代暴涨106分;

2. EpochAI的Frontier Math测试中,Opus 4.6在Tier1-3级别得分40%、Tier4极难级别得分21%,首次追平GPT-5.2(xhigh);

3. 开发者实战中GPT-5.3-Codex更受青睐,顶级开发者Banteg用它14天复刻2003年游戏,极客Karel月费1万美元让AI生成700个科研假设。

https://www.aiexpress.news/44931.html

十、木头姐2026展望:AI继续高速增长,核心优势在于专有数据

1. ARK Invest预测2030年全球GDP增速将突破7%,五大技术融合驱动的增长呈去通胀性,比特币2030年目标价上调至150万美元;

2. 中美AI差异化发展,中国凭开源路线突围,美国主导应用层全球竞争力,AI时代决定性优势的核心在于专有数据;

3. Tesla凭垂直整合领跑Robotaxis赛道,未来出行每英里成本或低至0.2美元,2030年或现百万亿市值公司,Tesla最具潜力。

https://www.aiexpress.news/44932.html

<原文链接:https://mp.weixin.qq.com/s/l-fZ8Xr8_cN4tQXxiQ0g4g

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容