Sam 狂喜，OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

OpenAI 刚刚发布了最新的 GPT-5.2，不要被他的版本号欺骗，这是今年 OpenAI 的年底大招。

官方定位是：迄今为止面向专业知识工作的最强大模型。

它在制作电子表格、构建演示文稿、编写代码、感知图像、理解长篇上下文、使用工具，以及处理复杂且多步骤的项目方面表现更佳。

模型性能大幅提升，价格也大幅提升了 40%。

在降本的大趋势下，模型涨价，一般都需要底气。

这个模型的底气在哪里？

专业技能 GDPval

前阵子 OpenAI 设计了 GDPval，一个以国内生产总值（GDP）这一关键经济指标为灵感。1320个专业任务，覆盖了美国 GDP 贡献排名前 9 大行业中精选出的 44 个职业。任务要求提交真实的成果作品，例如销售演示文稿、会计电子表格、急诊排班表、制造流程图，或短视频。

刚发布 GDPval 的时候，Claude Opus 4.1 以 47.6 的分数遥遥领先。

https://openai.com/index/gdpval/

但是今天， GPT-5.2 直接把分数刷到了 70% 以上。

GPT-5.2 完成这些任务的速度是人类专家的 11 倍以上，而成本不到其 1%。

这是 GPT 5.1 做的表，非常普通

这是 GPT 5.2 做的表，非常专业

提示词：创建一个员工队伍规划模型，涵盖员工人数、招聘计划、人员流失率以及预算影响。模型需包括工程、市场、法务和销售四个部门。

Coding 编码能力

SWE-Bench Pro 是一项针对真实世界软件工程的严格评估。

与仅测试 Python 的 SWE-bench Verified 不同，SWE-Bench Pro 测试四种语言，并致力于具备更强的抗污染能力、更高的挑战性、更丰富的多样性以及更强的工业相关性。

GPT‑5.2 Thinking 在 SWE-Bench Pro 上取得了 55.6%的全新最先进水平。超过了 Claude Opus 4.5 的 52% 和 Gemini 3 Pro 的 43.3% 。

超长文本

GPT‑5.2 在长上下文推理领域树立了新的行业标杆。

MRCR⁠⁠ v2（多轮共指消解）指标衡量的是，多个完全相同的“针”式用户请求会被插入到由大量相似请求和响应组成的“ haystack”长文档中，然后要求模型重现第 n 个“针”对应的响应。

GPT‑5.2 的第一个在 4 针 MRCR 变体（最长可达 256k token）上实现接近 100%准确率的模型。

幻觉降低

GPT-5.2 的另一大进步在于显著降低了“幻觉”。错误率相比前代降低了 30%。

视觉理解

GPT‑5.2 Thinking 在图表推理和软件界面理解任务上的错误率几乎降低了一半。

GPT 5.2 定价

GPT‑5.2 的定价为：

普通版：输入 1.75 美元，输出 14 美元。

专业版：输入 21 美元，输出 168 美元。

总体比 GPT 5.1 涨价 40% 。

太强了。

太贵了。

AI 今年的趋势，一个是文本模型涨价（GPT 5.2），一个是图像模型涨价（banana Pro）。

AI 明年的趋势，会不会是，视频模型涨价？

原文链接：https://mp.weixin.qq.com/s/NJC6WrQVtjzSmMLvQmeW6g

文章版权归作者所有，未经允许请勿转载。

THE END

Sam 狂喜，OpenAI 的年底答卷 GPT 5.2 发布