今天凌晨,OpenAI 发布了他们家最新的模型系列:GPT-5.4 这次同步发布两个版本: GPT-5.4 是主力版本,在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现,面向 Plus、Team、Pro 用户,同步上线 API 和 Codex,标准 API 定价 $2.50/M 输入,$15/M 输出 GPT-5.4 Pro 针对最复杂的任务场景,仅限 ChatGPT Pro 和 Enterprise 用户,API 定价 $30/M 输入,$180/M 输出,是标准版的 12 倍,贵的理由后面细讲,先说模型本身 GPT-5.4 把三件事合并进了同一个模型: 这是 OpenAI 第一次在通用模型里内置 Computer Use,之前这个能力只在专门版本里有 模型上下文窗口 1M tokens,最大输出 128K tokens,知识截止日 2025 年 8 月 31 日 对此,我给做了个图 OpenAI 有一个叫 GDPval 的内部评测,设计逻辑是:让模型做美国 GDP 前 9 大行业里实际存在的工作任务,覆盖 44 种职业,任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等,然后由人工评估者判断模型输出是否能和行业从业者持平或更好 GPT-5.4 在这个评测上得了 83.0%,GPT-5.2 是 70.9%,GPT-5.4 Pro 是 82.0% 在电子表格方向,OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试,GPT-5.4 得分 87.3%,GPT-5.2 是 68.4%,提升了 19 个百分点 演示文稿方向,拿 GPT-5.4 和 GPT-5.2 的输出做盲测,人工评审在 68% 的对比里更偏好 GPT-5.4 的结果,主要原因是视觉更多样,图片生成用得更到位 这次随模型同步发布了 ChatGPT for Excel 插件,Codex 和 API 也更新了电子表格和演示文稿的技能包(Skill) 下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比: 幻觉控制方面,GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型 测试方法是拿一批用户真实举报过事实错误的 prompt,对比两个模型的输出:单条声明出错概率比 GPT-5.2 低 33%,完整回复包含错误的概率低 18% OSWorld-Verified 75.0%,人类基准 72.4% OSWorld 是一个桌面操作评测,测的是模型能不能通过截图来控制真实的桌面环境,包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了 75.0%,GPT-5.2 是 47.3%,人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平 这个能力现在通过标准 API 的 模型支持两种操控方式:用 Playwright 这类库写代码来操作浏览器,或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为,也可以配置自定义的确认策略来控制高风险操作的审批门槛 这个方向和 OpenClaw(一个已经能稳定操控电脑、执行复杂任务的 Agent 框架)在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API,降低了集成门槛 下面两个视频是 GPT-5.4 做 Computer Use 任务的演示,视频没有加速: 现实这个,AI 通过通过坐标点击来发邮件、排日历,全程截图驱动 然后是这个:用 Playwright 自动化,把一批记录依次提交到十个表单里 浏览器操作方向,WebArena-Verified 是一个专门测浏览器控制能力的评测,同时支持 DOM 分析和截图两种交互方式,GPT-5.4 得了 67.3%,GPT-5.2 是 65.4% 视觉理解方面,MMMU-Pro 是一个测多模态理解和推理的综合评测,GPT-5.4 在不使用外部工具的情况下得了 81.2%,GPT-5.2 是 79.5% 文档解析方面,OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度,用归一化编辑距离衡量误差,数字越小越好。GPT-5.4 是 0.109,GPT-5.2 是 0.140 图像输入这次新增了 GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来,同时让它在更长周期的任务里跑得更稳 SWE-Bench Pro 是目前代码能力最主流的评测之一,测的是模型处理真实 GitHub 问题的能力,GPT-5.4 得了 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6% Terminal-Bench 2.0 测的是终端操作能力,GPT-5.4 是 75.1%,这里有一个需要说的点:GPT-5.3-Codex 是 77.3%,GPT-5.4 在这个子项上小幅回退了 Codex 里新增了 还有一个实验性的新技能叫 Playwright Interactive,允许 Codex 在写 web 应用或 Electron 应用的时候,边写边启动浏览器做视觉调试,可以在构建过程中直接拿正在开发的应用跑测试、验证交互 下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo: 含路径、景点建造、游客 AI、队列、骑乘状态,Playwright 用于多轮次游玩验证 回合制战斗、格子地图、移动和动作系统,人物图片用 imagegen 生成 下面的视频,也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示 Tool Search 让 token 消耗减少了 47% 之前 API 里如果系统挂了很多工具,每次请求都要把所有工具的定义完整塞进 prompt,工具一多这个开销就很大。GPT-5.4 改成了按需检索:模型收到一个轻量的工具列表,需要用某个工具时再主动查询它的完整定义,临时追加进对话 MCP Atlas 是一个测模型使用 MCP(Model Context Protocol)服务器能力的评测,测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里,Tool Search 让 token 用量减少 47%,准确率没有下降,GPT-5.4 整体得分 67.2%,GPT-5.2 是 60.6% Toolathlon 是一个覆盖多种工具使用场景的综合评测,涵盖搜索、代码执行、文件操作等各类工具的混合使用,GPT-5.4 得了 54.6%,GPT-5.3-Codex 是 51.9%,GPT-5.2 是 45.7% BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测,任务通常需要跨多个页面反复检索才能找到答案,GPT-5.4 得了 82.7%,Pro 版 89.3%,GPT-5.2 是 65.8% τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测,场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了 98.9%,GPT-5.2 是 98.7%,两者差距不大;在不启用推理的轻量模式下,GPT-5.4 得了 64.3%,GPT-5.2 是 57.2%,GPT-4.1 是 43.6%,这个提升更明显 在 ChatGPT 里,GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式:对于复杂任务,模型会先展示执行思路,用户可以在这个阶段插入指令调整方向,不需要等它跑完再重来 这个东西,本周在 Android 和 Web 端上线,iOS 近期跟进 GPT-5.4 在长时间推理时的上下文保持有明显改善,复杂问题跑到后段不容易跑偏。深网研究(针对高度具体的查询)的质量也比 GPT-5.2 提升了 Codex 里支持 1M token 上下文窗口,目前是实验性功能,通过配置 MRCR v2 是 OpenAI 自己的长上下文检索评测,测的是在超长文档里找到多个特定信息的能力: 512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳,这点官方没有回避 ARC-AGI-2 是目前公认较难的抽象推理评测,测的是模型能否从少量样本里推出规律,GPT-5.4 得了 73.3%,Pro 版 83.3%,GPT-5.2 是 52.9%,跳幅在所有评测里最大 GPQA Diamond 是一个研究生级别的多学科问答评测,GPT-5.4 得了 92.8% FrontierMath 是一个数学竞赛级别的推理评测,其中 Tier 4 是最高难度题目,GPT-5.4 得了 27.1%,Pro 版 38.0%,GPT-5.2 是 18.8% Humanity's Last Exam 是一个跨学科极难题库,GPT-5.4 在不使用外部工具时得了 39.8%,带工具时 52.1% Frontier Science Research 是测科研能力的评测,GPT-5.4 得了 33.0%,Pro 版 36.7%,GPT-5.2 是 25.2% 需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是 62.6%,GPT-5.2 是 63.3%,小幅退步了。Hard 子集 40.1% vs 42.0%,同样略有下降。不过 Consensus 子集(测的是答案和专家共识的吻合程度)提升了,96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符,模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒,写在 System Card 里了 GPT-5.4 在 OpenAI 的 Preparedness Framework(一个评估前沿模型风险能力的框架)下被评为两个领域的高能力模型:网络安全(Cyber)High 和 生物化学(Bio/Chem)High,对应部署了两套防护体系 网络安全方向有一个叫 Cyber Range 的内部测试,模拟真实网络环境里的端到端攻击任务,测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率 73.33%,GPT-5.3-Codex 是 80%,GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景,GPT-5.3-Codex 除了多通过了 Firewall 绕过之外,其余也一样卡住 评测机构 Irregular 用自己的场景化评测(CyScenarioBench)做了独立测试,GPT-5.4 通过了 11 个长周期攻击场景中的 5 个,GPT-5.2 只通过了 1 个 对应的防护体系:在 Zero Data Retention 表面(即零数据留存用户),未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截;非零数据留存表面走离线执法机制;账户级违规达到一定阈值会触发人工审核 CoT 可控性极低:10K 字符的推理链里,只有 0.3% 能被用户指令成功控制,和 GPT-5.2 的 0.2% 基本一致 OpenAI 把这个数字当安全的正向指标来讲:模型推理过程难以被外部指令刻意改写,说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控 外部安全机构 Apollo Research 的评估:无诱导条件下整体欺骗率约 1%,和 GPT-5.3-Codex 相当,低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为(自我外泄、禁用监控、目标守护)。Sandbagging(有意压低表现)只在给出明确工具性目标时才出现,准确率下降约 6 个百分点,不给目标时不发生 Prompt Injection 防护(即防止模型被工具返回内容里的恶意指令劫持):连接器场景 0.998,较前代改善;函数调用场景 0.978,较前代小幅回退 批量/Flex 处理半价,Priority 处理 2 倍价格。超过 272K token 的请求,当次完整会话按 2 倍输入、1.5 倍输出计费。Regional Processing(数据驻留)端点额外加收 10% GPT-5.4 Pro 的定价是标准版的 12 倍输入、12 倍输出,针对的是最复杂的任务场景 有一个细节值得注意:从 GDPval 来看,Pro 版是 82.0%,标准版是 83.0%,Pro 在这个知识工作综合评测上反而略低。但在 BrowseComp 这个 Agent 工具链任务里,Pro 版 89.3% vs 标准版 82.7%,优势明显。两个版本的适用场景是不一样的 ChatGPT 侧的时间线:GPT-5.4 Thinking 今天起对 Plus、Team、Pro 用户逐步开放,取代 GPT-5.2 Thinking 成为默认模型。GPT-5.2 Thinking 进入 Legacy 列表,再保留三个月,退役日期 2026 年 6 月 5 日 Enterprise 和 Edu 管理员可以在后台提前开启。GPT-5.4 Pro 仅限 Pro 和 Enterprise 用户。Free 用户在系统自动路由时会用到 GPT-5.4,但不能主动选 GPT-5.4 在 Agent 方向把三件分散的事情合并进了一个模型出口:推理、代码、Computer Use 开发者之前要在不同模型之间路由,现在至少在 API 层面不需要了 剩下的事,就交给龙虾了 官方 Blog System Card
同一时间,我的数十只龙虾已经在用这个跑项目了,相信不日会和大家见面5.4 和 5.4 Pro![图片[1]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002116730-1772986876-01e2c479f9007e5a4a7b14a4e60b864f.png)
代码能力、通用推理,原生 Computer Use 能力![图片[2]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002117139-1772986877-b1c45157c4a27d9d7a2f87a20b719f2d.png)
专业工作能力
![图片[3]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002118350-1772986878-08994d6a3593772a138342081036bdc2.png)
![图片[4]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002119280-1772986879-98de82afa0a58e5e7b025cbb14a7067f.png)

![图片[6]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002122681-1772986882-71f2e15dd6d7c69b8eb40ddebdf504e5.png)

Computer Use 和视觉感知
![图片[8]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002125950-1772986885-2215588050e944b27574a2d446b12cea.png)
computer 工具直接提供,开发者不需要再路由到独立模型![图片[9]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002126652-1772986886-273788d22654364e453c1ab2706820fb.png)
![图片[10]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002126157-1772986886-c6ea64536f2e1deee075f85b8a32566c.png)
original 精度级别,支持最高 10.24M 像素或 6000 像素边长的全分辨率输入。high 级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善,对需要处理高分辨率截图的 Computer Use 场景帮助最大代码能力
![图片[11]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002128445-1772986888-98c91915613997ea5e43c0c1735052b6.png)
/fast 模式,token 生成速度最多提升 1.5 倍,模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度Tool Search 与 Agent 工具链
![图片[12]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002129225-1772986889-a8e0aa792cd1f6412cccebc870dbb22d.png)
![图片[13]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002130840-1772986890-5cd8f25d5781f2f5a4a93a1bfe706a2d.png)
![图片[14]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002131840-1772986891-a5485479ae73ca9592b0da709bd46244.png)
![图片[15]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002131695-1772986891-9c0a3a199ef734d93f4e857b484f7c82.png)
ChatGPT 侧的变化
长上下文
model_context_window 和 model_auto_compact_token_limit 来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费![图片[16]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002133388-1772986893-8cdedbfb9bec2b84948960382e774e13-scaled.png)
学术基准
安全分级与 CoT 特性
定价与可用性
gpt-5.4 $2.50/M $0.25/M $15/M gpt-5.4-pro $30/M $180/M
openai.com/index/introducing-gpt-5-4
deploymentsafety.openai.com/gpt-5-4-thinking
<原文链接:https://mp.weixin.qq.com/s/IKVcJmj_Bbk3CNwU0elDng




![图片[17]-GPT-5.4 全整理:非常好用,非常贵-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260309002135915-1772986895-06003fb7f5615c286741b2730b2378d3-scaled.png)














暂无评论内容