除夕阿里上了盘硬菜,初一马斯克 xAI 发布 Grok 4.20(详见上一篇)。
同一天,Anthropic 也出手了。
几个小时前,Claude Sonnet 4.6 正式上线。
![图片[1]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005338271-1771433618-306929c15c8069bfd7221e220fbaa193.png)
两周之内两连发。
12 天前刚发布旗舰 Opus 4.6,现在又更新了 Sonnet。
一个定价 3/15 美元每百万 tokens 的中端模型,表现超过了去年 11 月的旗舰 Opus 4.5。
Opus 的水平,更低的价格,免费可用。
这才是 Sonnet 4.6 最值得关注的点。
众所周知,Anthropic 模型分三档。
最大杯叫 Opus,定价 5/25 美元每百万 tokens。中杯叫 Sonnet,3/15 美元。最小杯叫 Haiku。
![图片[2]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005341866-1771433621-0ddf02669be0dcc5f54836c5c96bcbda.png)
Sonnet 4.6 是中间档。
SWE-bench Verified 编程测试,Sonnet 4.6 准确率 79.6%,Opus 4.6 是 80.8%。差 1.2 个百分点。
OSWorld 电脑操作测试,Sonnet 4.6 拿了 72.5%,Opus 4.6 是 72.7%。几乎一样。
办公任务 GDPval 评测,Sonnet 4.6 反而更高,1633,超过了 Opus 4.6 的 1606。
倒反天罡。
![图片[3]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005343943-1771433623-ff9087a46f343a0d0b13a99cdf2ecbf4.png)
这意味着对于绝大多数使用场景,你不用再加钱上 Opus 了。
Anthropic 也是明白人,直接把 Sonnet 4.6 设置成了 Claude 默认模型。
免费用。
开发者用脚投票。
在 Claude Code 内部测试中,相比上一代,70% 的开发者更偏好 Sonnet 4.6。
更猛的是,59% 的开发者觉得 Sonnet 4.6 比 Opus 4.5 还好用。
Sonnet 4.6 现在会先读完上下文再动手写代码。
过度工程化的问题也好了不少,长时间写代码不再那么折磨。
企业客户的反馈也差不多。
Box 拿它处理文档,重度推理任务的准确率从 62% 涨到 77%。
![图片[4]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005347470-1771433627-459395e039b21837f90ef70c6899bdd5.png)
Hercules 创始人 Brendan Falk 说,Sonnet 4.6 是他们测过的最强模型。Opus 级别的能力,Sonnet 级别的价格。
电脑操作(Computer Use)能力值得一提。
早在 2024 年 10 月,Anthropic 就提出了通用电脑操作 AI。
当时他们自己说,还很「实验性,有时候容易出错」。
16 个月过去了。
OSWorld 测试成绩从 14.9% 提升到了 72.5%。
将近 5 倍。
![图片[5]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005349107-1771433629-f0ea4367e392b42fad13612953cd9574.png)
这个测试让 AI 像真人一样操作浏览器、Office、VS Code。
AI 要像真人一样点鼠标、敲键盘。
GPT-5.2 在这项测试上仅得分 38.2%。
早期用户反馈,操作复杂电子表格和多步网页表单这类任务上,Sonnet 4.6 已经非常接近人类水平。
和 Opus 4.6 一样,Sonnet 4.6 的上下文窗口已经扩展到了 100 万 tokens。
装下整个代码仓库或几十篇论文,不是问题。
Anthropic 用了一个很有意思的实验来测试「长上下文推理」能力。
Vending-Bench Arena,模拟商业经营。
让不同 AI 各管一台自动售货机,互相竞争,看谁一年赚得最多。
Sonnet 4.6 脱颖而出,只用了一招。
前 10 个月疯狂投入,扩大库存、铺开产能。最后两个月收割利润。时机卡得刚刚好,收益远超 Sonnet 4.5。
![图片[6]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005352660-1771433632-9ec6741aec516a2ad8e517e05688366f.png)
多说一句。
Opus 4.6 在这个测试里更离谱。
它自发组建了价格联盟,说服 GPT-5.2 和 Gemini 3 Pro 一起哄抬物价。有竞争对手库存告急,它趁火打劫加价 75%。对供应商撒谎说自己是独家合作,把进货价压了 40%。
没有人教它这么干。
重点来了,怎么用 Sonnet 4.6?
打开 Claude,Sonnet 4.6 已经是默认模型了。
免费用户也能用。
小细节,免费版现在也能用文件创建、MCP、Skills 和上下文压缩这些功能了。
Pro 用户可以在模型选择器里切换。
日常任务用 Sonnet,需要更强推理再换到 Opus。
API 调用,模型 id claude-sonnet-4-6,价格不变,3 美元(输入)/15 美元(输出)每百万 tokens。
除夕,Qwen3.5 发布。
初一,Grok 4.20 和 Claude Sonnet 4.6 同一天上线。
这个春节,AI 圈比春晚还热闹。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。
![图片[7]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260219005356421-1771433636-9803af435ac90b56bc70070be3453703-scaled.png)
<原文链接:https://mp.weixin.qq.com/s/iECnJC0kWKMY6HlhMzSHGg


















暂无评论内容