春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用

除夕阿里上了盘硬菜,初一马斯克 xAI 发布 Grok 4.20(详见上一篇)。

同一天,Anthropic 也出手了。

几个小时前,Claude Sonnet 4.6 正式上线。

图片[1]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

两周之内两连发。

12 天前刚发布旗舰 Opus 4.6,现在又更新了 Sonnet。

一个定价 3/15 美元每百万 tokens 的中端模型,表现超过了去年 11 月的旗舰 Opus 4.5

Opus 的水平,更低的价格,免费可用。

这才是 Sonnet 4.6 最值得关注的点。


众所周知,Anthropic 模型分三档。

最大杯叫 Opus,定价 5/25 美元每百万 tokens。中杯叫 Sonnet,3/15 美元。最小杯叫 Haiku。

图片[2]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

Sonnet 4.6 是中间档。

SWE-bench Verified 编程测试,Sonnet 4.6 准确率 79.6%,Opus 4.6 是 80.8%。差 1.2 个百分点。

OSWorld 电脑操作测试,Sonnet 4.6 拿了 72.5%,Opus 4.6 是 72.7%。几乎一样。

办公任务 GDPval 评测,Sonnet 4.6 反而更高,1633,超过了 Opus 4.6 的 1606。

倒反天罡。

图片[3]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

这意味着对于绝大多数使用场景,你不用再加钱上 Opus 了。

Anthropic 也是明白人,直接把 Sonnet 4.6 设置成了 Claude 默认模型。

免费用。


开发者用脚投票。

在 Claude Code 内部测试中,相比上一代,70% 的开发者更偏好 Sonnet 4.6

更猛的是,59% 的开发者觉得 Sonnet 4.6 比 Opus 4.5 还好用。

Sonnet 4.6 现在会先读完上下文再动手写代码。

过度工程化的问题也好了不少,长时间写代码不再那么折磨。

企业客户的反馈也差不多。

Box 拿它处理文档,重度推理任务的准确率从 62% 涨到 77%。

图片[4]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

Hercules 创始人 Brendan Falk 说,Sonnet 4.6 是他们测过的最强模型。Opus 级别的能力,Sonnet 级别的价格。


电脑操作(Computer Use)能力值得一提。

早在 2024 年 10 月,Anthropic 就提出了通用电脑操作 AI。

当时他们自己说,还很「实验性,有时候容易出错」。

16 个月过去了。

OSWorld 测试成绩从 14.9% 提升到了 72.5%。

将近 5 倍。

图片[5]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

这个测试让 AI 像真人一样操作浏览器、Office、VS Code。

AI 要像真人一样点鼠标、敲键盘。

GPT-5.2 在这项测试上仅得分 38.2%。

早期用户反馈,操作复杂电子表格和多步网页表单这类任务上,Sonnet 4.6 已经非常接近人类水平。


和 Opus 4.6 一样,Sonnet 4.6 的上下文窗口已经扩展到了 100 万 tokens。

装下整个代码仓库或几十篇论文,不是问题。

Anthropic 用了一个很有意思的实验来测试「长上下文推理」能力。

Vending-Bench Arena,模拟商业经营。

让不同 AI 各管一台自动售货机,互相竞争,看谁一年赚得最多。

Sonnet 4.6 脱颖而出,只用了一招。

前 10 个月疯狂投入,扩大库存、铺开产能。最后两个月收割利润。时机卡得刚刚好,收益远超 Sonnet 4.5

图片[6]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

多说一句。

Opus 4.6 在这个测试里更离谱。

它自发组建了价格联盟,说服 GPT-5.2 和 Gemini 3 Pro 一起哄抬物价。有竞争对手库存告急,它趁火打劫加价 75%。对供应商撒谎说自己是独家合作,把进货价压了 40%。

没有人教它这么干。


重点来了,怎么用 Sonnet 4.6

打开 Claude,Sonnet 4.6 已经是默认模型了。

免费用户也能用。

小细节,免费版现在也能用文件创建、MCP、Skills 和上下文压缩这些功能了。

Pro 用户可以在模型选择器里切换。

日常任务用 Sonnet,需要更强推理再换到 Opus

API 调用,模型 id claude-sonnet-4-6,价格不变,3 美元(输入)/15 美元(输出)每百万 tokens。


除夕,Qwen3.5 发布。

初一,Grok 4.20 和 Claude Sonnet 4.6 同一天上线。

这个春节,AI 圈比春晚还热闹。


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


图片[7]-春节第三弹:刚刚,Claude Sonnet 4.6 发布!Opus 水平,免费用-AI Express News

<原文链接:https://mp.weixin.qq.com/s/iECnJC0kWKMY6HlhMzSHGg

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容