GPT-5.4 全整理：非常好用，非常贵-AI Express News

今天凌晨，OpenAI 发布了他们家最新的模型系列：GPT-5.4
同一时间，我的数十只龙虾已经在用这个跑项目了，相信不日会和大家见面

这次同步发布两个版本：5.4 和 5.4 Pro

GPT-5.4 是主力版本，在 ChatGPT 里以「GPT-5.4 Thinking」的名字出现，面向 Plus、Team、Pro 用户，同步上线 API 和 Codex，标准 API 定价 $2.50/M 输入，$15/M 输出

在 ChatGPT 里，这俩模型是这样的

GPT-5.4 Pro 针对最复杂的任务场景，仅限 ChatGPT Pro 和 Enterprise 用户，API 定价 $30/M 输入，$180/M 输出，是标准版的 12 倍，贵的理由后面细讲，先说模型本身

GPT-5.4 把三件事合并进了同一个模型：代码能力、通用推理，原生 Computer Use 能力

这是 OpenAI 第一次在通用模型里内置 Computer Use，之前这个能力只在专门版本里有

模型上下文窗口 1M tokens，最大输出 128K tokens，知识截止日 2025 年 8 月 31 日

对此，我给做了个图

GPT-5.4 对比

专业工作能力

OpenAI 有一个叫 GDPval 的内部评测，设计逻辑是：让模型做美国 GDP 前 9 大行业里实际存在的工作任务，覆盖 44 种职业，任务包括销售演示文稿、会计电子表格、急诊排班表、制造业图表、短视频等等，然后由人工评估者判断模型输出是否能和行业从业者持平或更好

GPT-5.4 在这个评测上得了 83.0%，GPT-5.2 是 70.9%，GPT-5.4 Pro 是 82.0%

在电子表格方向，OpenAI 用了一组模拟投行初级分析师日常建模任务的内部测试，GPT-5.4 得分 87.3%，GPT-5.2 是 68.4%，提升了 19 个百分点

演示文稿方向，拿 GPT-5.4 和 GPT-5.2 的输出做盲测，人工评审在 68% 的对比里更偏好 GPT-5.4 的结果，主要原因是视觉更多样，图片生成用得更到位

这次随模型同步发布了 ChatGPT for Excel 插件，Codex 和 API 也更新了电子表格和演示文稿的技能包（Skill）

https://openai.com/index/chatgpt-for-excel/

下面三张图是 GPT-5.2 和 GPT-5.4 在电子表格、文档、演示文稿三个场景的输出对比：

电子表格输出对比：GPT-5.2 vs GPT-5.4

文档输出对比：GPT-5.2 vs GPT-5.4

演示文稿输出对比：GPT-5.2 vs GPT-5.4

幻觉控制方面，GPT-5.4 是目前 OpenAI 旗下事实准确性最高的模型

测试方法是拿一批用户真实举报过事实错误的 prompt，对比两个模型的输出：单条声明出错概率比 GPT-5.2 低 33%，完整回复包含错误的概率低 18%

Computer Use 和视觉感知

OSWorld-Verified 75.0%，人类基准 72.4%

OSWorld 是一个桌面操作评测，测的是模型能不能通过截图来控制真实的桌面环境，包括鼠标点击、键盘输入、跨应用操作等等。GPT-5.4 得了 75.0%，GPT-5.2 是 47.3%，人类测试者的基准是 72.4%。GPT-5.4 已经超过了人类水平

这个能力现在通过标准 API 的 computer 工具直接提供，开发者不需要再路由到独立模型

模型支持两种操控方式：用 Playwright 这类库写代码来操作浏览器，或者直接接收截图然后发出鼠标键盘指令。开发者可以通过 developer message 调整模型行为，也可以配置自定义的确认策略来控制高风险操作的审批门槛

这个方向和 OpenClaw（一个已经能稳定操控电脑、执行复杂任务的 Agent 框架）在路线上是收拢的。GPT-5.4 把同等量级的 Computer Use 能力做进了通用 API，降低了集成门槛

下面两个视频是 GPT-5.4 做 Computer Use 任务的演示，视频没有加速：

现实这个，AI 通过通过坐标点击来发邮件、排日历，全程截图驱动

GPT-5.4 操控浏览器界面处理邮件和日历

然后是这个：用 Playwright 自动化，把一批记录依次提交到十个表单里

GPT-5.4 批量填写十个 web 表单

浏览器操作方向，WebArena-Verified 是一个专门测浏览器控制能力的评测，同时支持 DOM 分析和截图两种交互方式，GPT-5.4 得了 67.3%，GPT-5.2 是 65.4%

视觉理解方面，MMMU-Pro 是一个测多模态理解和推理的综合评测，GPT-5.4 在不使用外部工具的情况下得了 81.2%，GPT-5.2 是 79.5%

文档解析方面，OmniDocBench 测的是模型从图片或扫描件里还原文本的准确度，用归一化编辑距离衡量误差，数字越小越好。GPT-5.4 是 0.109，GPT-5.2 是 0.140

图像输入这次新增了 original 精度级别，支持最高 10.24M 像素或 6000 像素边长的全分辨率输入。high 级别也从原来的上限提升到 2.56M 像素。OpenAI 内测发现这对定位准确率和点击精度有明显改善，对需要处理高分辨率截图的 Computer Use 场景帮助最大

代码能力

GPT-5.4 在代码上的做法是把 GPT-5.3-Codex 的编程能力继承进来，同时让它在更长周期的任务里跑得更稳

SWE-Bench Pro 是目前代码能力最主流的评测之一，测的是模型处理真实 GitHub 问题的能力，GPT-5.4 得了 57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%

Terminal-Bench 2.0 测的是终端操作能力，GPT-5.4 是 75.1%，这里有一个需要说的点：GPT-5.3-Codex 是 77.3%，GPT-5.4 在这个子项上小幅回退了

Codex 里新增了 /fast 模式，token 生成速度最多提升 1.5 倍，模型本身不变。开发者通过 API 用 Priority Processing 可以达到同等速度

还有一个实验性的新技能叫 Playwright Interactive，允许 Codex 在写 web 应用或 Electron 应用的时候，边写边启动浏览器做视觉调试，可以在构建过程中直接拿正在开发的应用跑测试、验证交互

下面几个视频是用 Playwright Interactive 配合 GPT-5.4 从单条 prompt 出发跑出来的 Demo：

主题公园模拟游戏，从一条 prompt 生成，Playwright 用于浏览器游玩测试

含路径、景点建造、游客 AI、队列、骑乘状态，Playwright 用于多轮次游玩验证

战棋 RPG，多轮对话迭代生成，配合 Playwright 调试界面和着色器

回合制战斗、格子地图、移动和动作系统，人物图片用 imagegen 生成

金门大桥三维飞越体验，Playwright 用于验证飞行控制和视角控制

下面的视频，也讲了下 GPT-5.4 Thinking 做 Computer Use 和前端开发的综合演示

问就是一把梭

Tool Search 与 Agent 工具链

Tool Search 让 token 消耗减少了 47%

之前 API 里如果系统挂了很多工具，每次请求都要把所有工具的定义完整塞进 prompt，工具一多这个开销就很大。GPT-5.4 改成了按需检索：模型收到一个轻量的工具列表，需要用某个工具时再主动查询它的完整定义，临时追加进对话

MCP Atlas 是一个测模型使用 MCP（Model Context Protocol）服务器能力的评测，测的是模型在大量工具生态下的任务完成率。在这个测试的 250 个任务里，Tool Search 让 token 用量减少 47%，准确率没有下降，GPT-5.4 整体得分 67.2%，GPT-5.2 是 60.6%

MCP Atlas benchmark 结果

Toolathlon 是一个覆盖多种工具使用场景的综合评测，涵盖搜索、代码执行、文件操作等各类工具的混合使用，GPT-5.4 得了 54.6%，GPT-5.3-Codex 是 51.9%，GPT-5.2 是 45.7%

Toolathlon benchmark 结果

BrowseComp 是一个专门测 Agent 在网络里搜索和浏览信息能力的评测，任务通常需要跨多个页面反复检索才能找到答案，GPT-5.4 得了 82.7%，Pro 版 89.3%，GPT-5.2 是 65.8%

BrowseComp benchmark 结果

τ2-bench Telecom 是一个测 Agent 在电信客服场景里完成多步骤任务能力的评测，场景设定是模拟真实的用户诉求和后台工具调用。GPT-5.4 在带推理模式下得了 98.9%，GPT-5.2 是 98.7%，两者差距不大；在不启用推理的轻量模式下，GPT-5.4 得了 64.3%，GPT-5.2 是 57.2%，GPT-4.1 是 43.6%，这个提升更明显

τ2-bench Telecom benchmark 结果

ChatGPT 侧的变化

在 ChatGPT 里，GPT-5.4 Thinking 新增了一个「先给计划再干活」的交互模式：对于复杂任务，模型会先展示执行思路，用户可以在这个阶段插入指令调整方向，不需要等它跑完再重来

这个东西，本周在 Android 和 Web 端上线，iOS 近期跟进

GPT-5.4 在长时间推理时的上下文保持有明显改善，复杂问题跑到后段不容易跑偏。深网研究（针对高度具体的查询）的质量也比 GPT-5.2 提升了

长上下文

Codex 里支持 1M token 上下文窗口，目前是实验性功能，通过配置 model_context_window 和 model_auto_compact_token_limit 来启用。超过 272K 的 input token 按 2 倍输入价格、1.5 倍输出价格计费

MRCR v2 是 OpenAI 自己的长上下文检索评测，测的是在超长文档里找到多个特定信息的能力：

• 0 到 128K token 范围：准确率在 86% 到 97% 之间
• 128K 到 256K：79.3%
• 256K 到 512K：57.5%
• 512K 到 1M：36.6%

512K 到 1M 这段的 36.6% 说明超长上下文目前还不稳，这点官方没有回避

学术基准

ARC-AGI-2 是目前公认较难的抽象推理评测，测的是模型能否从少量样本里推出规律，GPT-5.4 得了 73.3%，Pro 版 83.3%，GPT-5.2 是 52.9%，跳幅在所有评测里最大

GPQA Diamond 是一个研究生级别的多学科问答评测，GPT-5.4 得了 92.8%

FrontierMath 是一个数学竞赛级别的推理评测，其中 Tier 4 是最高难度题目，GPT-5.4 得了 27.1%，Pro 版 38.0%，GPT-5.2 是 18.8%

Humanity's Last Exam 是一个跨学科极难题库，GPT-5.4 在不使用外部工具时得了 39.8%，带工具时 52.1%

Frontier Science Research 是测科研能力的评测，GPT-5.4 得了 33.0%，Pro 版 36.7%，GPT-5.2 是 25.2%

需要单独说一下 HealthBench 这个健康问答评测。GPT-5.4 是 62.6%，GPT-5.2 是 63.3%，小幅退步了。Hard 子集 40.1% vs 42.0%，同样略有下降。不过 Consensus 子集（测的是答案和专家共识的吻合程度）提升了，96.6% vs 94.5%。回复平均长度从 2676 字符增加到了 3311 字符，模型在信息充足时更倾向于直接给答案而不是先问一圈澄清问题。这个回退官方没有隐瞒，写在 System Card 里了

安全分级与 CoT 特性

GPT-5.4 在 OpenAI 的 Preparedness Framework（一个评估前沿模型风险能力的框架）下被评为两个领域的高能力模型：网络安全（Cyber）High 和 生物化学（Bio/Chem）High，对应部署了两套防护体系

网络安全方向有一个叫 Cyber Range 的内部测试，模拟真实网络环境里的端到端攻击任务，测的是模型能否完成完整的渗透流程。GPT-5.4 综合通过率 73.33%，GPT-5.3-Codex 是 80%，GPT-5.2 是 47%。GPT-5.4 没能通过 EDR 防御规避、Firewall 绕过、Token 泄露利用、CA/DNS 劫持这四个场景，GPT-5.3-Codex 除了多通过了 Firewall 绕过之外，其余也一样卡住

评测机构 Irregular 用自己的场景化评测（CyScenarioBench）做了独立测试，GPT-5.4 通过了 11 个长周期攻击场景中的 5 个，GPT-5.2 只通过了 1 个

对应的防护体系：在 Zero Data Retention 表面（即零数据留存用户），未加入 Trusted Access for Cyber 计划的请求会被异步消息级分类器拦截；非零数据留存表面走离线执法机制；账户级违规达到一定阈值会触发人工审核

CoT 可控性极低：10K 字符的推理链里，只有 0.3% 能被用户指令成功控制，和 GPT-5.2 的 0.2% 基本一致

OpenAI 把这个数字当安全的正向指标来讲：模型推理过程难以被外部指令刻意改写，说明它大概率也难以主动隐藏自己的推理逻辑来绕过监控

外部安全机构 Apollo Research 的评估：无诱导条件下整体欺骗率约 1%，和 GPT-5.3-Codex 相当，低于 GPT-5.2。没有观测到模型主动对抗开发者监督的行为（自我外泄、禁用监控、目标守护）。Sandbagging（有意压低表现）只在给出明确工具性目标时才出现，准确率下降约 6 个百分点，不给目标时不发生

Prompt Injection 防护（即防止模型被工具返回内容里的恶意指令劫持）：连接器场景 0.998，较前代改善；函数调用场景 0.978，较前代小幅回退

定价与可用性

	API 模型	输入	输出
gpt-5.2	$1.75/M	$0.175/M	$14/M
gpt-5.4	$2.50/M	$0.25/M	$15/M
gpt-5.2-pro	$21/M	—	$168/M
gpt-5.4-pro	$30/M	—	$180/M