Claude Opus 4.6 发布大约半小时后,GPT-5.3-Codex 来了 Opus 4.6 的博客里说自己拿了 Terminal-Bench 2.0 的最高分,GPT-5.3-Codex 直接交出 77.3%,把这个最高分抢了回去 这里对比下两边的跑分 GPT-5.3-Codex 把 GPT-5.2-Codex 的编码能力和 GPT-5.2 的推理 + 专业知识能力合进了一个模型,速度还比 5.2-Codex 快 25% OpenAI 给了一个说法:这是第一个参与创造自己的模型。早期版本的 GPT-5.3-Codex 被用来 debug 自己的训练过程、管理自己的部署、分析自己的评测结果 回到 GPT-5.3-Codex 几个关键数字拎一下 Terminal-Bench 2.0:77.3% SWE-Bench Pro:56.8% OSWorld-Verified:64.7% GPT-5.2-Codex 是 38.2%,GPT-5.3-Codex 跳到 64.7%。从不到人类一半到接近人类水平 GDPval:70.9% 网络安全 CTF:77.6% OpenAI 让 GPT-5.3-Codex 自己做了两个游戏来展示长时间 Agent 工作能力。用的是「develop web game」skill,加上「fix the bug」「improve the game」之类的通用 follow-up prompt,让模型在数百万 token 的上下文里自主迭代 赛车游戏 试玩在这 潜水游戏 当然,也可以这个网站上自己玩 Landing page 对比 OpenAI 用同一个 prompt 让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别生成了一个 SaaS Landing page GPT-5.3-Codex 的版本自动把年付方案显示为折后月价(让折扣感更直观),加了三条用户评价的自动轮播。GPT-5.2-Codex 的版本就是常规实现 同一个 prompt,细节差异挺大 同样的,这里附上 5.3-Codex 地址: GDPval 测的不只是写代码。44 个职业,任务由各职业的资深从业者设计,做 PPT、做表格、写分析报告都算 OpenAI 放了几个 demo 其他 demo 还包括零售培训文档、NPV 分析表格、时尚行业 PDF 演示 以前 Codex 是你下指令,等结果。GPT-5.3-Codex 可以在工作过程中实时交互 模型会主动汇报进展和关键决策,你可以中途提问、讨论方案、调整方向,不用等到最后才看到输出 在 Codex app 里打开 这是这次发布里最有意思的部分 OpenAI 说早期版本的 GPT-5.3-Codex 在自己的开发过程中被大量使用。几个具体场景: 研究团队用 Codex 监控和 debug 训练过程,追踪训练中的行为模式,分析交互质量差异,还给人类研究员搭了可视化工具来精确理解模型行为的变化 工程团队用 Codex 优化推理框架,定位上下文渲染 bug,排查缓存命中率低的根因。发布当天,GPT-5.3-Codex 还在帮团队做 GPU 集群的动态扩缩容和延迟稳定 Alpha 测试阶段,一个研究员想量化 GPT-5.3-Codex 每轮多做了多少工作。GPT-5.3-Codex 自己写了几个正则分类器来估算澄清频率、正负反馈、任务进度,然后跑完所有 session log 出了份报告 数据科学家和 GPT-5.3-Codex 一起搭了新的数据管道和可视化,三分钟内对上千个数据点做出了摘要分析 OpenAI 的原话是「团队被 Codex 加速自身开发的能力震住了」 GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下第一个被标为 High capability 的网络安全模型,也是第一个被直接训练来识别软件漏洞的模型 OpenAI 说没有确定性证据表明它能端到端自动化网络攻击,但采取了预防性措施,部署了他们迄今最全面的网络安全安全栈:安全训练、自动监控、高级能力的可信访问、执行管道 + 威胁情报 几个配套动作: 发布了 Trusted Access for Cyber 试点项目,加速网络防御研究 Aardvark(安全研究 Agent)扩大了内测范围,作为 Codex Security 产品线的第一个工具 和开源项目合作提供免费代码扫描,上周一个安全研究员用 Codex 在 Next.js 里找到了漏洞(Vercel 已披露) 在 2023 年 $1M 网安资助计划基础上,追加 10M USD 的 API credits,专门给开源软件和关键基础设施的安全研究 GPT-5.3-Codex 今天起在所有 Codex 渠道可用: API 访问还在准备中,OpenAI 说「soon」 另外的,在这里下载 Codex app:![图片[1]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209004949983-1770569389-2b66ebb2270c9209c8eb46d122e70cfc.png)
![图片[2]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209004952287-1770569392-456723a52410c46affa98264e0261827.png)
跑分
![图片[2]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209004952287-1770569392-456723a52410c46affa98264e0261827.png)
测的是编码 Agent 在终端里的操作能力。GPT-5.2-Codex 是 64.0%,GPT-5.3-Codex 直接跳到 77.3%。而且 OpenAI 强调,它用的 token 比之前所有模型都少![图片[4]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209004954550-1770569394-faf6619425df3ffd3b3b22566d7766ff.png)
比 SWE-bench Verified 更难,跨四种语言,更抗数据污染。GPT-5.3-Codex 在准确率和 token 消耗上都领先![图片[5]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209004956579-1770569396-7c4bf1cc716ca74c031da1cdfe22632c.png)
这是个视觉桌面操作的 benchmark,模型要用视觉完成各种电脑任务。人类基准是约 72%![图片[6]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209004958460-1770569398-616e7757cec207b14568b2f32c948ecc.png)
测的是 44 个职业的知识工作任务,做 PPT、做表格、写文档这些。GPT-5.3-Codex 和 GPT-5.2 打平,都是 70.9%
从 GPT-5.2 的 67.7% 涨到 77.6%前端和游戏
8 张地图,不同赛车手,还能用空格键放道具![图片[7]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005001119-1770569401-00ba7a0a59513d9240d1bc91e59c60ae.png)
探索珊瑚礁,收集鱼类图鉴,同时要管理氧气、水压和危险![图片[8]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005009605-1770569409-2fdde9a0a842a259773706c9e55e81fc.png)
![图片[9]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005014574-1770569414-ef1cdff8430522732b835157e08b13d9.png)
![图片[10]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005018433-1770569418-5160ceda647a81c8de7824e082ae57b6.png)
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html知识工作

![图片[12]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005026483-1770569426-a9ab43c33016e9c9c3a278853bebecca.png)
![图片[13]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005029839-1770569429-c05ee8a230f7b965931029cea122222a.png)
![图片[14]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005033610-1770569433-f7eab4aaa119e9914a7299ea2bc24bd0.png)
交互方式变了
Settings > General > Follow-up behavior 就能用用 Codex 训练 Codex
网络安全
可用性
Codex app、CLI、IDE 扩展、web![图片[15]-OpenAI 发布 GPT-5.3-Codex,一文详解-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/02/20260209005037735-1770569437-abe4aa54613e141b7f59d04b7348aa99.png)
https://persistent.oaistatic.com/codex-app-prod/Codex.dmg
<原文链接:https://mp.weixin.qq.com/s/39AKSqgZbb6d9Vnu-g2xqA

















暂无评论内容