刚刚，GPT-5.4 突袭上线！百万上下文，AI 操作电脑，首次超越人类！-AI Express News

两天。

前天写 GPT-5.3 Instant 的时候，我的文章结尾留了个彩蛋。

「5.4 sooner than you Think.」

今天，答案揭晓。

GPT-5.4，Thinking + Pro 两个版本，同时上线 ChatGPT、API 和 Codex。

OpenAI 给它的定位是「our most capable and efficient frontier model for professional work」。

翻译一下，「最强、最省、最能干活的。」

GPT-5.4 是 OpenAI 第一个原生支持「电脑操作」的通用模型。

它能看屏幕截图，能点鼠标，能敲键盘，能跨应用完成多步骤任务。

这些能力直接内置在模型里，不需要额外调用 Agent 工具。

一句话，「模型即 Agent」。

OSWorld 是目前最权威的「AI 操作电脑」测试。

GPT-5.4 成功率 75%。而 GPT-5.2 只有 47.3%。

人类基准 72.4%。

AI 第一次在电脑操作任务里超过人类水平。

Anthropic 的 Claude Opus 4.6 在同一个测试里得分 72.7%，和人类打平。

GPT-5.4 这次直接甩开了。

不过，这个「超越人类」是在特定测试环境下的表现。真实体验还是要以实测为准。

ChatGPT 里多了个新功能。

以前跟 ChatGPT 聊，它思考的时候你只能干等。如果 AI 想了半天方向跑偏了，token 白烧，只能重来。

现在 GPT-5.4 Thinking 会先给你一个「思考计划」。

你可以在回答过程中随时打断，换方向、加条件、纠偏。

「You can steer it mid-response.」回答到一半可以随时切换方向。

实测这个功能已经灰度很多天了，很香。

100 万 tokens 上下文。

之前的 GPT-5.2 是 40 万，2.5 倍。

不过 100 万只在 API 和 Codex 里。

ChatGPT 里手动选 Thinking，Pro 用户 40 万上下文，其他付费用户 25.6 万。

思考深度也能手动调节。

Plus 和 Business 用户可以选 Standard 或 Extended，Pro 用户多两档 Light 和 Heavy。

日常问题 Standard 就够，遇到硬骨头再上 Heavy。

网页版和安卓已经推送，iOS 也快了。

OpenAI 这波更新瞄准了「AI 办公」场景。

GDPval 测试「AI 能不能替你干活」，覆盖 44 个职业的真实工作任务。做 PPT、填表格、写分析报告。GPT-5.4 83%，GPT-5.2 70.9%。

这意味着每 10 次和行业专家对比，GPT-5.4 8 次以上打赢或平手。

投行分析师级别的表格建模任务，GPT-5.4 87.3%，GPT-5.2 只有 68.4%。。

OpenAI 同时发布了「ChatGPT for Excel」插件，你可以直接在表格里调用 GPT-5.4 做分析。所有付费用户都能用，但目前只对美国、加拿大和澳大利亚地区的用户开放。

和我之前提到过的「Claude in Excel」如出一辙。

幻觉也降低了。

单条事实性错误概率比 GPT-5.2 降了 33%，完整回答出错率降了 18%。

和谷歌 Gemini 一样，GPT-5.4 也不是全能。

专业知识和电脑操作是 GPT-5.4 的新主场。

Anthropic Claude Opus 4.6，代码和网页浏览依然无人能敌。

谷歌 Gemini 3.1 Pro 抽象推理最强，价格最便宜。

还是那句话，「没有最强的模型，只有最适合你的模型。」

重点来了，怎么用 GPT-5.4？

所有 ChatGPT 付费用户都可以用 GPT-5.4 Thinking。Plus 和 Business 每周 3000 次额度，Pro 不限量。

注意，Auto 模式遇到复杂问题会自动路由到 GPT-5.4 Thinking，这部分不算进额度。

GPT-5.4 Pro 只对 ChatGPT Pro、Business、企业和教育用户开放。

免费用户只能用 GPT-5.3，每 5 小时 10 条。

API 定价，GPT-5.4 每百万 tokens 输入 2.5 美元，输出 15 美元。比 GPT-5.2 的 1.75/14 略贵一点。

GPT-5.4 Pro 更是富哥专属，每百万 tokens 输入 30 美元，输出 180 美元。

GPT-5.3 Instant 前天，GPT-5.4 今天。

卷起来，用就完了。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。
关注「AI信息Gap」，让 AI 成为你的外挂。

<原文链接：https://mp.weixin.qq.com/s/fwHE9UIh3ZhTl7FtcH1O1w

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

刚刚，GPT-5.4 突袭上线！百万上下文，AI 操作电脑，首次超越人类！

请登录后发表评论