OpenAI 刚刚发布了最新的 GPT-5.2,不要被他的版本号欺骗,这是今年 OpenAI 的年底大招。
官方定位是:迄今为止面向专业知识工作的最强大模型。
![图片[1]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232907185-1765726147-f3f4ed449218baf8c72c014272c2790a-scaled.jpeg)
它在制作电子表格、构建演示文稿、编写代码、感知图像、理解长篇上下文、使用工具,以及处理复杂且多步骤的项目方面表现更佳。
模型性能大幅提升,价格也大幅提升了 40%。
在降本的大趋势下,模型涨价,一般都需要底气。
这个模型的底气在哪里?
专业技能 GDPval
前阵子 OpenAI 设计了 GDPval,一个以国内生产总值(GDP)这一关键经济指标为灵感。1320个专业任务,覆盖了美国 GDP 贡献排名前 9 大行业中精选出的 44 个职业。任务要求提交真实的成果作品,例如销售演示文稿、会计电子表格、急诊排班表、制造流程图,或短视频。
刚发布 GDPval 的时候,Claude Opus 4.1 以 47.6 的分数遥遥领先。
![图片[2]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232908330-1765726148-8caa7ad753c131ea0d83d24d92d3d32e.png)
https://openai.com/index/gdpval/
但是今天, GPT-5.2 直接把分数刷到了 70% 以上。
![图片[3]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232909748-1765726149-573f88cf5a18d21c649bb4dd9db3165c.png)
GPT-5.2 完成这些任务的速度是人类专家的 11 倍以上,而成本不到其 1%。
这是 GPT 5.1 做的表,非常普通
![图片[4]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232909847-1765726149-d3a509e17511428ae1685ecc2ebbe719.png)
这是 GPT 5.2 做的表,非常专业
![图片[5]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232911432-1765726151-9e7810ecf446873424e6b91742347a7f.png)
提示词:创建一个员工队伍规划模型,涵盖员工人数、招聘计划、人员流失率以及预算影响。模型需包括工程、市场、法务和销售四个部门。
Coding 编码能力
SWE-Bench Pro 是一项针对真实世界软件工程的严格评估。
与仅测试 Python 的 SWE-bench Verified 不同,SWE-Bench Pro 测试四种语言,并致力于具备更强的抗污染能力、更高的挑战性、更丰富的多样性以及更强的工业相关性。
GPT‑5.2 Thinking 在 SWE-Bench Pro 上取得了 55.6%的全新最先进水平。超过了 Claude Opus 4.5 的 52% 和 Gemini 3 Pro 的 43.3% 。
![图片[6]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232912302-1765726152-7db1875af2cd09ee97d2026c7ef4c463.png)
超长文本
GPT‑5.2 在长上下文推理领域树立了新的行业标杆。
MRCR v2(多轮共指消解)指标衡量的是,多个完全相同的“针”式用户请求会被插入到由大量相似请求和响应组成的“ haystack”长文档中,然后要求模型重现第 n 个“针”对应的响应。
GPT‑5.2 的第一个在 4 针 MRCR 变体(最长可达 256k token)上实现接近 100%准确率的模型。
![图片[7]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232913714-1765726153-2747c4898211e58b218d008b92ecd5c6.png)
幻觉降低
GPT-5.2 的另一大进步在于显著降低了“幻觉”。错误率相比前代降低了 30%。
![图片[8]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232914184-1765726154-d7ae95450f8c883139fc129d05b0d7ac.png)
视觉理解
GPT‑5.2 Thinking 在图表推理和软件界面理解任务上的错误率几乎降低了一半。
![图片[9]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232915994-1765726155-78bc94b093a495f2580913e95fd95827.png)
GPT‑5.2 的定价为:
普通版:输入 1.75 美元,输出 14 美元。
专业版:输入 21 美元,输出 168 美元。
总体比 GPT 5.1 涨价 40% 。
![图片[10]-Sam 狂喜,OpenAI 的年底答卷 GPT 5.2 发布-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251214232916820-1765726156-b54bfc391b9f8457b7d5c9625f6c030f.png)
原文链接:https://mp.weixin.qq.com/s/NJC6WrQVtjzSmMLvQmeW6g












暂无评论内容