Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布

OpenAI 刚刚发布了最新的 GPT-5.2,不要被他的版本号欺骗,这是今年 OpenAI 的年底大招。

官方定位是:迄今为止面向专业知识工作的最强大模型。

图片[1]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

它在制作电子表格、构建演示文稿、编写代码、感知图像、理解长篇上下文、使用工具,以及处理复杂且多步骤的项目方面表现更佳。

模型性能大幅提升,价格也大幅提升了 40%。

在降本的大趋势下,模型涨价,一般都需要底气。

这个模型的底气在哪里?

专业技能 GDPval

前阵子 OpenAI 设计了 GDPval,一个以国内生产总值(GDP)这一关键经济指标为灵感。1320个专业任务,覆盖了美国 GDP 贡献排名前 9 大行业中精选出的 44 个职业。任务要求提交真实的成果作品,例如销售演示文稿、会计电子表格、急诊排班表、制造流程图,或短视频。

刚发布 GDPval 的时候,Claude Opus 4.1 以 47.6 的分数遥遥领先。

图片[2]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

https://openai.com/index/gdpval/

但是今天, GPT-5.2 直接把分数刷到了 70% 以上。

图片[3]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

GPT-5.2 完成这些任务的速度是人类专家的 11 倍以上,而成本不到其 1%。

这是 GPT 5.1 做的表,非常普通

图片[4]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

这是 GPT 5.2 做的表,非常专业

图片[5]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

提示词:创建一个员工队伍规划模型,涵盖员工人数、招聘计划、人员流失率以及预算影响。模型需包括工程、市场、法务和销售四个部门。

Coding 编码能力

SWE-Bench Pro 是一项针对真实世界软件工程的严格评估。

与仅测试 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 测试四种语言,并致力于具备更强的抗污染能力、更高的挑战性、更丰富的多样性以及更强的工业相关性。

GPT‑5.2 Thinking 在 SWE-Bench Pro 上取得了 55.6%的全新最先进水平。超过了 Claude Opus 4.5 的 52% 和 Gemini 3 Pro 的 43.3% 。

图片[6]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

 

超长文本

GPT‑5.2 在长上下文推理领域树立了新的行业标杆。

MRCR⁠⁠ v2(多轮共指消解)指标衡量的是,多个完全相同的“针”式用户请求会被插入到由大量相似请求和响应组成的“ haystack”长文档中,然后要求模型重现第 n 个“针”对应的响应。

GPT‑5.2 的第一个在 4 针 MRCR 变体(最长可达 256k token)上实现接近 100%准确率的模型。

图片[7]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

幻觉降低

GPT-5.2 的另一大进步在于显著降低了“幻觉”。错误率相比前代降低了 30%。

图片[8]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News

视觉理解

GPT‑5.2 Thinking 在图表推理和软件界面理解任务上的错误率几乎降低了一半。

图片[9]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News
GPT 5.2 定价

GPT‑5.2 的定价为:

普通版:输入 1.75 美元,输出 14 美元。

专业版:输入 21 美元,输出 168 美元。

总体比 GPT 5.1 涨价 40% 。

图片[10]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News
太强了。
太贵了。
AI 今年的趋势,一个是文本模型涨价(GPT 5.2),一个是图像模型涨价(banana Pro)。
AI 明年的趋势,会不会是,视频模型涨价?

 

原文链接:https://mp.weixin.qq.com/s/NJC6WrQVtjzSmMLvQmeW6g

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
yjdjz的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容