OpenAI 发布 GPT-5.3-Codex，一文详解-AI Express News

Claude Opus 4.6 发布大约半小时后，GPT-5.3-Codex 来了

Opus 4.6 的博客里说自己拿了 Terminal-Bench 2.0 的最高分，GPT-5.3-Codex 直接交出 77.3%，把这个最高分抢了回去

这里对比下两边的跑分

先是 Claude 的 BenchMark

先是 GPT-5.3-Codex 的 BenchMark

GPT-5.3-Codex 把 GPT-5.2-Codex 的编码能力和 GPT-5.2 的推理 + 专业知识能力合进了一个模型，速度还比 5.2-Codex 快 25%

OpenAI 给了一个说法：这是第一个参与创造自己的模型。早期版本的 GPT-5.3-Codex 被用来 debug 自己的训练过程、管理自己的部署、分析自己的评测结果

跑分

回到 GPT-5.3-Codex

GPT-5.3-Codex BenchMark 跑分

几个关键数字拎一下

Terminal-Bench 2.0：77.3%
测的是编码 Agent 在终端里的操作能力。GPT-5.2-Codex 是 64.0%，GPT-5.3-Codex 直接跳到 77.3%。而且 OpenAI 强调，它用的 token 比之前所有模型都少

Terminal-Bench 2.0：77.3% vs 64.0% vs 62.2%

SWE-Bench Pro：56.8%
比 SWE-bench Verified 更难，跨四种语言，更抗数据污染。GPT-5.3-Codex 在准确率和 token 消耗上都领先

SWE-Bench Pro，横轴是输出 token 数，GPT-5.3-Codex 又准又省

OSWorld-Verified：64.7%
这是个视觉桌面操作的 benchmark，模型要用视觉完成各种电脑任务。人类基准是约 72%

GPT-5.2-Codex 是 38.2%，GPT-5.3-Codex 跳到 64.7%。从不到人类一半到接近人类水平

OSWorld-Verified 跑分

GDPval：70.9%
测的是 44 个职业的知识工作任务，做 PPT、做表格、写文档这些。GPT-5.3-Codex 和 GPT-5.2 打平，都是 70.9%

网络安全 CTF：77.6%
从 GPT-5.2 的 67.7% 涨到 77.6%

前端和游戏

OpenAI 让 GPT-5.3-Codex 自己做了两个游戏来展示长时间 Agent 工作能力。用的是「develop web game」skill，加上「fix the bug」「improve the game」之类的通用 follow-up prompt，让模型在数百万 token 的上下文里自主迭代

赛车游戏
8 张地图，不同赛车手，还能用空格键放道具

赛车游戏

试玩在这

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

潜水游戏
探索珊瑚礁，收集鱼类图鉴，同时要管理氧气、水压和危险

潜水游戏

当然，也可以这个网站上自己玩

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

Landing page 对比

OpenAI 用同一个 prompt 让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别生成了一个 SaaS Landing page

GPT-5.3-Codex 的版本自动把年付方案显示为折后月价（让折扣感更直观），加了三条用户评价的自动轮播。GPT-5.2-Codex 的版本就是常规实现

5.3-Codex 制作的 Landing page

5.2-Codex 制作的 Landing page

同一个 prompt，细节差异挺大

同样的，这里附上 5.3-Codex 地址：
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html

知识工作

GDPval 测的不只是写代码。44 个职业，任务由各职业的资深从业者设计，做 PPT、做表格、写分析报告都算

OpenAI 放了几个 demo

金融顾问 PPT demo：比较 CD 和可变年金的风险收益

其他 demo 还包括零售培训文档、NPV 分析表格、时尚行业 PDF 演示

零售培训文档

NPV 分析表格

时尚演示 PDF

交互方式变了

以前 Codex 是你下指令，等结果。GPT-5.3-Codex 可以在工作过程中实时交互

模型会主动汇报进展和关键决策，你可以中途提问、讨论方案、调整方向，不用等到最后才看到输出

交互协作演示

在 Codex app 里打开 Settings > General > Follow-up behavior 就能用

用 Codex 训练 Codex

这是这次发布里最有意思的部分

OpenAI 说早期版本的 GPT-5.3-Codex 在自己的开发过程中被大量使用。几个具体场景：

研究团队用 Codex 监控和 debug 训练过程，追踪训练中的行为模式，分析交互质量差异，还给人类研究员搭了可视化工具来精确理解模型行为的变化

工程团队用 Codex 优化推理框架，定位上下文渲染 bug，排查缓存命中率低的根因。发布当天，GPT-5.3-Codex 还在帮团队做 GPU 集群的动态扩缩容和延迟稳定

Alpha 测试阶段，一个研究员想量化 GPT-5.3-Codex 每轮多做了多少工作。GPT-5.3-Codex 自己写了几个正则分类器来估算澄清频率、正负反馈、任务进度，然后跑完所有 session log 出了份报告

数据科学家和 GPT-5.3-Codex 一起搭了新的数据管道和可视化，三分钟内对上千个数据点做出了摘要分析

OpenAI 的原话是「团队被 Codex 加速自身开发的能力震住了」

网络安全

GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下第一个被标为 High capability 的网络安全模型，也是第一个被直接训练来识别软件漏洞的模型

OpenAI 说没有确定性证据表明它能端到端自动化网络攻击，但采取了预防性措施，部署了他们迄今最全面的网络安全安全栈：安全训练、自动监控、高级能力的可信访问、执行管道 + 威胁情报

几个配套动作：

发布了 Trusted Access for Cyber 试点项目，加速网络防御研究

Aardvark（安全研究 Agent）扩大了内测范围，作为 Codex Security 产品线的第一个工具

和开源项目合作提供免费代码扫描，上周一个安全研究员用 Codex 在 Next.js 里找到了漏洞（Vercel 已披露）

在 2023 年 $1M 网安资助计划基础上，追加 10M USD 的 API credits，专门给开源软件和关键基础设施的安全研究

可用性

GPT-5.3-Codex 今天起在所有 Codex 渠道可用：
Codex app、CLI、IDE 扩展、web

API 访问还在准备中，OpenAI 说「soon」

另外的，在这里下载 Codex app：
https://persistent.oaistatic.com/codex-app-prod/Codex.dmg

<原文链接：https://mp.weixin.qq.com/s/39AKSqgZbb6d9Vnu-g2xqA

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

OpenAI 发布 GPT-5.3-Codex，一文详解

跑分

前端和游戏

知识工作

交互方式变了

用 Codex 训练 Codex

网络安全

可用性

请登录后发表评论