![图片[1]-GPT-5.4 发布,OpenClaw的能力要被取代?OpenAI 新模型不仅会自己用电脑,编程能力也拉满了-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307005820561-1772816300-dd499c90bc861dcb3cd23a35ee110a37.png)
今天,GPT-5.4 发布,那个熟悉的 OpenAI 又回来了。
GPT-5.4 是一款新的前沿模型,把 OpenAI 过去一段时间在推理能力(GPT-5.2)、顶级编程能力(GPT-5.3-Codex)以及原生计算机使用能力上的进展,整合到了同一个版本里。
这次发布的分量很重,光是“原生电脑操作”这一点,就已经足够吸引眼球,而当它再叠加顶级的专业知识工作能力、100 万 token 的上下文窗口,以及明显提升的工具使用效率时,对所有希望用 AI 工作、与 AI 协作,或者基于 AI 搭建系统的人来说,这都意味着一次真正意义上的能力跃升。
在这个新模型上,最大的变化就是原生电脑操作能力的到来。OpenAI 的原话是,GPT-5.4 是其“首个原生具备电脑操作能力的通用模型”。

OSWorld Verified 的 computer use 基准测试上从 47.3% 提升到了 75%,而 BrowseComp 的准确率从 65.8% 提升至 82.7%。
这不只是“跑几个 shell 命令”那么简单,真正的意义在于:它可以进入你的桌面、访问网页,基本上能够在你的电脑上完成很多原本只有人来操作的事情,而这些事通常是我们平时通过网页端 ChatGPT 做不到的。
尤其是像 OpenClaw 这样的产品,在最近几个月,甚至可以说最近几周,突然变得非常火,核心原因就在于,它已经改变了我们使用 AI 模型的方式。过去,我们更多只是停留在网页端,通过 web app 和模型对话,电脑本地几乎没有真正参与进来。但现在,这种局面已经从根本上发生了变化。
从 OpenAI 给出的示例中,我们可以看到 GPT-5.4 可以熟练使用计算机,包括查看浏览器用户界面截图、点击界面、发送电子邮件以及安排日历。
另一个新的实验功能 “Playwright (Interactive)”,允许 Codex 实时进行 Web 和 Electron 应用的可视化调试,甚至能在构建应用的同时直接测试——这正是借助它的原生电脑操作能力实现的。
OpenAI 研究员 SQ Mah 表示,这背后主要有两项关键能力支撑:一是 CUA(computer use,计算机操作能力),二是通过图像输入生成高质量网站的能力。
与 GPT-5.3 Codex 相比,GPT-5.4 在使用 CUA 时,不再需要额外拉起一个全新的环境来执行操作。在 3D 游戏中,CUA 会自己点击游戏界面,移动象棋位置,甚至通过实际操作来验证规则是否正确生效。
在网站生成场景中,模型会调用 image gen 工具,生成图片,然后通过 CUA 来检查自己的工作:打开生成的图片、检查图片内容、打开网站页面也看一遍,然后把它们并排对比,确保生成的网站尽可能接近输入的那张图。
SQ Mah 还强调说,通过持久化的 CUA,他们发现,在一些让模型测试自己工作的场景中,token 使用量实际上下降了三分之二。
其实,OpenAI 早在去年 1 月就推出了 CUA,但出于安全性和准确性的考量,这个项目并没有真正被重视起来。


甚至一度让人怀疑,OpenAI 是否已经放弃了这条路线。特别是在 GPT-4o 等项目吸引了几乎全部关注的那段时间里,CUA 基本处于一种“销声匿迹”的状态。

他们是不是放弃这个项目了?现在一点消息都没有了。我其实一直在用 Azure/OpenAI,它已经预览好几个月了。虽然我申请了,但一直没能获得批准。

与 GPT-4o 等项目铺天盖地的宣传相比,CUA 基本上销声匿迹了。而且它目前仍处于预览阶段,这意味着访问权限受到严格限制,许多人甚至都无法尝试...... 不过我不认为这条路线已经失败。一旦“浏览器优先”的方案在稳定性、隐蔽性以及内置安全机制上真正成熟,它很可能会成为 agent 工作流的一次重大跃迁。
但从今天 GPT-5.4 的发布来看,情况显然变了。OpenAI 不仅重新把这项能力带回到台前,还在 GitHub 上新发布了一些的 CUA sample app。

CUA 让 ChatGPT 5.4 可以直接使用我们的电脑,这一点和 OpenClaw 的思路非常接近:本质上,大家都在争夺同一个入口——让 AI 直接使用电脑,而不再继续受限于 API 和聊天窗口。不同的是,OpenClaw 更像是在模型之外搭建的一层 computer-use 框架,而 GPT-5.4 走得更直接:它把电脑操作能力原生整合进了模型本身。
这意味着,一旦模型自身已经具备了这类能力,而且还能被各种软件、平台和企业系统直接集成调用,它的竞争力就会迅速放大。对于那些年营收做到千万、上亿,甚至百亿的公司来说,它们完全可以基于这样的模型能力,做出自己的“OpenClaw 版本”——而且往往会更安全、更快,也更可靠。
从这个角度看,OpenClaw 这样的开源项目依然很有价值,因为它们率先验证了“AI 直接使用电脑”这条路线;但当模型厂商开始把这种能力原生做进模型里,整个竞争的重心就会发生变化。大家比拼的将不再只是一个外部框架,而是谁能更快把这项能力产品化、平台化,并真正接入真实工作流。
所以在 agentic AI 能力这件事上,现在确实是一个非常令人兴奋的阶段。
这次升级明显是在“照顾开发者和重度用户”,其中一个关键原因是 GPT-5.4 带来了工具搜索(tool search):模型不再把所有工具的完整定义一次性塞进上下文(这可能导致每次请求额外烧掉数万 token),而是只拿到一个轻量列表,需要用哪个工具时再按需检索具体定义。
在 Scale 的 MCP Atlas 基准中,启用 36 个 MCP 服务器、测试 250 个任务时,tool-search 配置在不降低准确率的情况下,把总 token 使用量减少了 47%。对构建大型 agent 系统的开发者来说,这几乎等同于:成本更低、响应更快。

幻觉问题也显著下降。按 OpenAI 的说法,GPT-5.4 的单条事实陈述比 GPT-5.2 更不容易出错(错误概率降低 33%),整体回答包含错误的概率也降低了 18%——这对依赖准确输出的专业用户来说,是非常实用的一次升级。
与此同时,在 Harvey 的 BigLaw Bench(法律文档评测)中,GPT-5.4 的准确率达到了 91%。

GPT-5.4 现在也成为 OpenAI 的主力编程模型——在大多数任务中,你不再需要在 ChatGPT 与 Codex 之间纠结选哪一个。

它在 SWE-Bench Pro 上与 GPT-5.3-Codex 持平或更强,同时也更快,尤其是在较低推理强度设置下。在对话里,你可以直接开始写代码,无需额外选择。

Codex 还新增了 fast mode,在所有支持的模型上带来最高 1.5 倍速度提升。OpenAI 还强调 GPT-5.4 在复杂前端任务上明显更强,输出既更精致好看,也更符合功能正确性。这一点,也已经从不少开发者的实际反馈中得到了印证。


在 API 中,OpenAI 表示 GPT-5.4 Thinking 对应的模型名称为 gpt-5.4,而 GPT-5.4 Pro 则对应 gpt-5.4-pro。价格如下:
GPT-5.4:
输入:$2.50 / 每 100 万 token
输出:$15 / 每 100 万 token
GPT-5.4 Pro:
输入:$30 / 每 100 万 token
输出:$180 / 每 100 万 token
从整体来看,与目前市面上的模型相比,GPT-5.4 在 API 运行成本上属于较高的一档,如下表所示。

还有一个重要变化:在 GPT-5.4 中,如果请求的 输入 token 超过 272,000,费用将按正常价格的 2 倍计算,这反映了它支持比以往模型更大的提示上下文。
在 Codex 中,默认的 compaction(压缩)上限是 272k token。只有当输入超过 272k 时,才会触发更高的长上下文价格。这意味着开发者只要把提示控制在这个范围内,就不会触发额外费用;如果需要更长上下文,也可以通过提高 compaction 上限来实现,但只有这些更大的请求才会按更高费率计费。
OpenAI 发言人还表示,在 API 中 最大输出长度为 128,000 token,与之前的模型保持一致。
至于为什么 GPT-5.4 的基础价格更高,OpenAI 的解释主要有三个原因:
在复杂任务上的能力显著提升,包括编程、计算机操作、深度研究、高级文档生成和工具调用等;
来自 OpenAI 技术路线图的一系列研究突破;
推理效率更高,在完成相同任务时需要更少的推理 token。
同时他们也强调,即使价格有所上调,GPT-5.4 的定价仍然低于许多同级别的前沿模型。
参考链接:
https://openai.com/zh-Hans-CN/index/computer-using-agent/
https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/
https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for
声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。
![图片[15]-GPT-5.4 发布,OpenClaw的能力要被取代?OpenAI 新模型不仅会自己用电脑,编程能力也拉满了-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307005838942-1772816318-afd1084902b6af8d3cf08c778a694fc7.png)
2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!
QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程!汇聚顶尖专家实战分享,把 AI 能力一次夯到位!

今日荐文
昆仑万维:AI编程能力纳入绩效考核,实行末位淘汰;云厂大规模宕机,员工曝是自家AI干的;Claude被特朗普封杀后登顶App Store | AI周报
史诗级输血!亚马逊、英伟达、软银联手投出 1100 亿美元,OpenAI 估值冲上 7300 亿美元
史上最“疯狂”高中:没有老师、全靠AI?全员入学定创业项目,目标是成为领域顶尖专家
不怕你走,就怕你不用AI写代码!OpenAI Codex负责人亲口承认:内部已很少再打开IDE

你也「在看」吗?👇
<原文链接:https://mp.weixin.qq.com/s/H2QXaPkh2SFwh2tFsCn9ew


















暂无评论内容