Claude Opus 4.6 发布，全线碾压 GPT-5.2，一文详解-AI Express News

刚刚，Anthropic 发布 Claude Opus 4.6

BenchMark

在知识工作评测 GDPval-AA 上，Opus 4.6 赢 GPT-5.2 约 144 Elo，赢自家前代 Opus 4.5 约 190 Elo
翻译成人话，就是十局赢七局

同时拿下 Terminal-Bench 2.0（Agent 编码）、Humanity's Last Exam（多学科推理）、BrowseComp（Agent 搜索）的最高分

这是 Opus 级模型第一次支持 1M token 上下文窗口（beta），输出上限拉到 128K token

模型之外，Anthropic 这次把产品线也一起更新了。Claude Code 加了 agent teams，Excel 升级，PowerPoint 新出了 research preview，API 加了 adaptive thinking 和 context compaction

官方介绍视频

跑分

先看总表

Benchmark 总表，Opus 4.6 vs 各家模型

分项来看

知识工作（GDPval-AA）

这个评测由 Artificial Analysis 独立运营，测的是金融、法律等专业领域的实际工作能力。Opus 4.6 在各个子领域都排在前面

GDPval-AA 各领域得分

Agent 搜索（DeepSearchQA / BrowseComp）

BrowseComp 测的是模型在网上找难找的信息的能力。Opus 4.6 单 Agent 跑分就已经领先，加上多 Agent 框架之后分数到了 86.8%

DeepSearchQA 跑分对比

Agent 编码（Terminal-Bench 2.0 / SWE-bench Verified）

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 轮，调整 prompt 后最高到了 81.42%

Terminal-Bench 2.0 跑分

多学科推理（Humanity's Last Exam / ARC AGI 2）

Humanity's Last Exam 跑的时候带了 web search、code execution、context compaction（50K token 触发，最大 3M token），用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget

多学科推理跑分

长上下文

1M 上下文不新鲜，但 Opus 级模型一直没给

之前的问题是 context rot，上下文一长，模型表现就往下掉。Opus 4.6 在 MRCR v2 八针 1M 测试里拿了 76%，同一个测试 Sonnet 4.5 只有 18.5%

这特么...足足四倍

Anthropic 说 Opus 4.6 在大量文档中检索信息的能力也有明显提升，能在几十万 token 的上下文里追踪信息，抓住 Opus 4.5 会漏掉的细节

长上下文检索，提升很明显

长上下文推理能力对比

其他领域的 benchmark

除了上面几个主要方向，Opus 4.6 还跑了软件工程、多语言编码、长期连贯性、网络安全、生命科学几个方向

根因分析（OpenRCA）

测的是模型诊断复杂软件故障的能力。每个 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分，否则 0 分

OpenRCA，诊断复杂软件故障

多语言编码

多语言编码跑分

长期连贯性（MCP Atlas）

Opus 4.6 用 max effort 跑出最高分。用 high effort 的时候也到了 62.7%，同样领先

MCP Atlas，长期连贯性

网络安全（CyberGym）

跑的时候没开 thinking，用默认 effort、temperature 和 top_p，给了一个 think tool 做多轮评测的交叉思考

CyberGym，网络安全能力

生命科学

生命科学跑分

Anthropic 内部怎么用的

Anthropic 自己用 Claude 造 Claude。工程师每天用 Claude Code 写代码，每个新模型都先在内部跑

他们对 Opus 4.6 的观察：模型会自动把精力集中在任务最难的部分，简单的地方快速通过，处理模糊问题时判断更好，长时间工作保持稳定

但也有个问题，Opus 4.6 有时候会「想太多」。简单任务上会增加成本和延迟，Anthropic 建议这种场景把 effort 从默认的 high 调到 medium

Early Access 合作伙伴的反馈集中在三点：能自主工作不需要手把手带，之前模型搞不定的任务能搞定了，改变了团队协作的方式

产品更新

Claude Code：agent teams

可以同时起多个 Agent，让它们并行工作、自主协调。适合能拆成独立子任务的场景，比如大规模 code review

你可以用 Shift+Up/Down 或者 tmux 随时接管任意一个子 Agent。目前是 research preview

Claude in Excel

能处理更长、更复杂的任务了。可以先规划再执行，能自动识别非结构化数据并推断出合理的表结构，支持条件格式和数据验证，多步操作一次完成

Claude in Excel 演示视频（1 分 27 秒）

Claude in PowerPoint

这个东西目前，research preview 阶段，Max、Team、Enterprise 可用

Claude 会读你的版式、字体、母版，保持品牌一致性。可以从模板出发，也可以从一段描述直接生成整套 deck

一个实用的组合：先用 Claude in Excel 处理和结构化数据，再用 Claude in PowerPoint 做可视化呈现

Cowork

在 Cowork 里，Opus 4.6 可以自主执行多任务。跑分析、做研究、处理文档、表格、演示文稿，都可以自动跑

API 更新

Adaptive thinking
以前 extended thinking 只有开和关两个选项。现在 Claude 可以自己判断什么时候需要深度推理，什么时候快速过。默认 effort 是 high，这个档位下模型会在需要的时候自动启用深度推理

Effort 控制
四档可选：low、medium、high（默认）、max。开发者可以根据任务调

Context compaction（beta）
长对话或 Agent 任务快撞到上下文窗口的时候，自动把旧的上下文压缩成摘要替换掉，触发阈值可配置

1M 上下文（beta）
超过 200K token 的输入，价格从涨到10/百万 token，输出从涨到37.50。200K 以内价格不变

128K 输出
大输出任务不用拆成多次请求了

US-only inference
需要数据留在美国境内的，可以选 US-only inference，价格 1.1 倍

安全

Anthropic 说这是他们做过最全面的安全评估，很多测试是第一次用

自动行为审计里，Opus 4.6 的对齐偏差率（欺骗、谄媚、配合滥用等）和 Opus 4.5 持平。over-refusal 率（该回答却拒绝）是近期 Claude 模型里最低的

安全评估，各代 Claude 对齐偏差率对比

新增了用户福祉评测、更复杂的拒绝危险请求测试、模型是否会偷偷执行有害操作的升级版测试

因为 Opus 4.6 的网络安全能力提升明显，Anthropic 额外开发了 6 个新的网络安全探针来追踪潜在滥用。同时也在用这个模型帮开源软件找漏洞和打补丁

一个细节：system card 里提到他们首次用可解释性（interpretability）技术去理解模型行为的底层原因，试图抓住标准测试可能漏掉的问题

详细的能力和安全评估在 system card 里：https://www.anthropic.com/claude-opus-4-6-system-card

定价

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 标识：claude-opus-4-6

定价：25 每百万 token（200K 以内），37.50 每百万 token（200K 以上）

完整定价：https://claude.com/pricing#api

<原文链接：https://mp.weixin.qq.com/s/L3Tbd4KMmPnahnStnunTVA

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

Claude Opus 4.6 发布，全线碾压 GPT-5.2，一文详解

跑分

长上下文

其他领域的 benchmark

Anthropic 内部怎么用的

产品更新

API 更新

安全

定价

请登录后发表评论