腾讯研究院AI速递 20260227

生成式AI

一、DeepSeek新模型sealion-lite曝光,芯片抢先适配

1. 多家独立信源称DeepSeek V4 Lite代号"sealion-lite"正在积极测试,支持1M上下文窗口和原生多模态推理,非思考模式已超越V3.2思考模式;

2. 路透社报道DeepSeek已向华为等国内芯片厂商提供V4提前访问权以优化处理器软件,英伟达和AMD尚未获得权限;

3. 首批流出的SVG示例显示V4 Lite代码更简洁质量更高,网友猜测参数约2850亿,市场正准备迎接又一次"DeepSeek时刻"。

https://www.aiexpress.news/48074.html

二、马斯克宣布Grok 4.20 Beta更新,四智能体协作登顶榜单

1. Grok 4.20采用"4 Agents"架构,内置协调者Grok、研究专家Harper、逻辑专家Benjamin和创意达人Lucas四个智能体,应对复杂查询时自动协作;

2. 经3992位用户评测在Search Arena排名第一超越GPT-5.2和Gemini 3.0 Pro,Alpha Arena真实股票交易基准中同样登顶;

3. 采用快速学习机制每周通过用户真实交互持续迭代,多智能体内部讨论可大幅降低幻觉约65%,提高工程、预测等多步推理的可靠性。

https://www.aiexpress.news/48088.html

三、Perplexity发布Computer产品,Anthropic收购Vercept

1. Perplexity发布Computer产品,通过Claude Opus编排多达19个AI模型并行工作,可端到端完成研究、设计、编码、部署全流程,后台自主运行数小时甚至数天;

2. 创始人称"AI即电脑",一句话可构建媲美Bloomberg的实时金融终端,GitHub Copilot总架构师Alex Graveley为核心技术负责人;

3. 同日Anthropic收购AI初创Vercept,核心能力将在未来几周并入Claude,Claude在OSWorld基准测试中已从不足15%飙至72.5%逼近人类水平。

https://www.aiexpress.news/48106.html

四、三星发布Galaxy S26系列,AI手机面临线价格

1. 三星Galaxy S26系列搭载定制骁龙8至尊版芯片,AI可在后台自主执行打车、外卖、购物等任务,与中国移动合作实现类似"豆包AI手机"的操作模式;

2. S26 Ultra首次搭载内置式防窥显示屏通过软硬件协同实现,支持APV专业视频标准多次剪辑接近视觉无损,夜拍和视频防抖显著提升;

3. 标准版起售价6999元较上代涨1000元,S26 Ultra起售价9999元涨300元,截至2025年底支持AI的Galaxy设备超4亿台,2026年目标8亿台。

https://www.aiexpress.news/48134.html

五、硅谷最贵华人放弃Meta 14亿天价offer,投奔OpenAI

1. 上海交大本科、普林斯顿博士庞若鸣在加入Meta仅七个月后转投OpenAI,此前Meta为其开出超2亿美元跨数年薪酬方案;

2. 他曾在苹果从几人团队扩建至百人全明星基础模型团队,主导了Apple Intelligence及Genmoji、邮件摘要等功能开发;

3. 离职发生在Meta超级智能实验室刚完成首批核心AI模型交付的关键时期,此前扎克伯格花143亿美元收购Scale AI近半股份组建AI梦之队。

https://www.aiexpress.news/48154.html

报告观点

六、Karpathy:AI编程质变就从去年12月开始,杠杆效应极高

1. Karpathy断言2025年12月前Coding Agent基本无法工作,12月后模型质量突变具备更强长期一致性,30分钟可完成此前需要整个周末的项目;

2. 编程正被重构,不再是在编辑器里输入代码,而是启动AI Agent用英语分配任务并管理多个并行代码实例,顶级agentic engineering杠杆效应极高;

3. Ruby on Rails作者称这是40年计算机历程中最大最快的变化,Karpathy强调技术深厚的程序员不会被淘汰反而实现能力倍增。

https://www.aiexpress.news/48162.html

七、MIT、剑桥、斯坦福联合报告:AI Agent的现状与困境

1. MIT联合多校对30个顶级AI Agent进行45维度1350个数据字段全面审计,23个完全闭源,底层模型高度集中于GPT、Claude、Gemini三家,生态存在隐性控制权风险;

2. 浏览器类Agent实际自主度达L4-L5但企业宣传普遍低报为L1-L2,仅4个Agent披露专属安全文档,记忆架构几乎全部不透明,76%开发商拒绝回应数据核查;

3. Claude Code实测显示编程占Agent使用近半,最长不中断运行时长三个月翻倍,但全球仅0.04%的人试过AI编程,Agent能力在飞奔而治理框架几乎空白。

https://www.aiexpress.news/48174.html

<原文链接:https://mp.weixin.qq.com/s/DM72M2rNQf5WvYsnb28d7Q

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容