两天。
前天写 GPT-5.3 Instant 的时候,我的文章结尾留了个彩蛋。
「5.4 sooner than you Think.」
今天,答案揭晓。
![图片[1]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004625447-1772815585-f7882107d3e3d0f8f0a06313b5932e94.png)
GPT-5.4,Thinking + Pro 两个版本,同时上线 ChatGPT、API 和 Codex。
OpenAI 给它的定位是「our most capable and efficient frontier model for professional work」。
翻译一下,「最强、最省、最能干活的。」
GPT-5.4 是 OpenAI 第一个原生支持「电脑操作」的通用模型。
它能看屏幕截图,能点鼠标,能敲键盘,能跨应用完成多步骤任务。
这些能力直接内置在模型里,不需要额外调用 Agent 工具。
一句话,「模型即 Agent」。
OSWorld 是目前最权威的「AI 操作电脑」测试。
GPT-5.4 成功率 75%。而 GPT-5.2 只有 47.3%。
人类基准 72.4%。
![图片[2]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004627530-1772815587-7e6a483cb7dc87824307111b0fdbf961.png)
AI 第一次在电脑操作任务里超过人类水平。
Anthropic 的 Claude Opus 4.6 在同一个测试里得分 72.7%,和人类打平。
GPT-5.4 这次直接甩开了。
不过,这个「超越人类」是在特定测试环境下的表现。真实体验还是要以实测为准。
ChatGPT 里多了个新功能。
以前跟 ChatGPT 聊,它思考的时候你只能干等。如果 AI 想了半天方向跑偏了,token 白烧,只能重来。
现在 GPT-5.4 Thinking 会先给你一个「思考计划」。
你可以在回答过程中随时打断,换方向、加条件、纠偏。
「You can steer it mid-response.」回答到一半可以随时切换方向。
实测这个功能已经灰度很多天了,很香。
![图片[3]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004629164-1772815589-da541242707e711218d8cd8576fe5900.png)
100 万 tokens 上下文。
之前的 GPT-5.2 是 40 万,2.5 倍。
不过 100 万只在 API 和 Codex 里。
ChatGPT 里手动选 Thinking,Pro 用户 40 万上下文,其他付费用户 25.6 万。
![图片[4]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004630464-1772815590-e7ec0125b8f6e7f781a7d5311eea03f3.png)
思考深度也能手动调节。
Plus 和 Business 用户可以选 Standard 或 Extended,Pro 用户多两档 Light 和 Heavy。
日常问题 Standard 就够,遇到硬骨头再上 Heavy。
网页版和安卓已经推送,iOS 也快了。
OpenAI 这波更新瞄准了「AI 办公」场景。
GDPval 测试「AI 能不能替你干活」,覆盖 44 个职业的真实工作任务。做 PPT、填表格、写分析报告。GPT-5.4 83%,GPT-5.2 70.9%。
这意味着每 10 次和行业专家对比,GPT-5.4 8 次以上打赢或平手。
投行分析师级别的表格建模任务,GPT-5.4 87.3%,GPT-5.2 只有 68.4%。。
OpenAI 同时发布了「ChatGPT for Excel」插件,你可以直接在表格里调用 GPT-5.4 做分析。所有付费用户都能用,但目前只对美国、加拿大和澳大利亚地区的用户开放。
和我之前提到过的「Claude in Excel」如出一辙。
![图片[5]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004633515-1772815593-e6dee09c3cf1e9cb2ebbf0095120786f-scaled.png)
幻觉也降低了。
单条事实性错误概率比 GPT-5.2 降了 33%,完整回答出错率降了 18%。
和谷歌 Gemini 一样,GPT-5.4 也不是全能。
![图片[6]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004638380-1772815598-d1b1c9b088a69c00ac4a56df6613455b.png)
专业知识和电脑操作是 GPT-5.4 的新主场。
Anthropic Claude Opus 4.6,代码和网页浏览依然无人能敌。
谷歌 Gemini 3.1 Pro 抽象推理最强,价格最便宜。
还是那句话,「没有最强的模型,只有最适合你的模型。」
重点来了,怎么用 GPT-5.4?
所有 ChatGPT 付费用户都可以用 GPT-5.4 Thinking。Plus 和 Business 每周 3000 次额度,Pro 不限量。
注意,Auto 模式遇到复杂问题会自动路由到 GPT-5.4 Thinking,这部分不算进额度。
GPT-5.4 Pro 只对 ChatGPT Pro、Business、企业和教育用户开放。
免费用户只能用 GPT-5.3,每 5 小时 10 条。
![图片[7]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004641342-1772815601-2022243621c246eb561c96b6cbfc2f01.png)
API 定价,GPT-5.4 每百万 tokens 输入 2.5 美元,输出 15 美元。比 GPT-5.2 的 1.75/14 略贵一点。
GPT-5.4 Pro 更是富哥专属,每百万 tokens 输入 30 美元,输出 180 美元。
GPT-5.3 Instant 前天,GPT-5.4 今天。
卷起来,用就完了。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。
![图片[8]-刚刚,GPT-5.4 突袭上线!百万上下文,AI 操作电脑,首次超越人类!-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260307004643623-1772815603-c2fe721575ab0fde13084bfa79b138c0-scaled.png)
<原文链接:https://mp.weixin.qq.com/s/fwHE9UIh3ZhTl7FtcH1O1w


















暂无评论内容