![图片[1]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002756931-1773851276-2dadbab6e78f525e0b89b733c234fdf6.png)
新智元报道
【新智元导读】深夜,OpenAI祭出「双子星」GPT-5.4 mini和nano,实力逼近满血版,速度性价比拉满,用来编码、当「龙虾」主力真香!
OpenAI一声不吭,又扔了一颗炸弹。
今天,GPT-5.4 mini和GPT-5.4 nano正式发布。
没有预热,没有倒计时,直接上线。
![图片[2]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002801601-1773851281-e3cfc1a39c2d0fb85cee12e1e81b33a2.png)
这两个模型要解决的问题很明确:在真实的生产环境里,怎么让AI又快又准又便宜地干活?
它们继承了GPT-5.4核心优势,速度拉满、成本更低,堪称轻量级模型巅峰之作。
先说最炸裂的数字——
编码(SWE-Bench Pro):GPT-5.4 mini拿下54.4%,而满血版GPT-5.4是57.7%;
计算机使用(OSWorld-Verified):GPT-5.4 mini 72.1%的成绩,媲美GPT-5.4(75%)
另外,在推理、工具调用等任务中,mini的实力直接逼近GPT-5.4。
而且,相较于上一代GPT-5 mini,GPT-5.4 mini运行速度直接飙升2倍!
![图片[3]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002803925-1773851283-18ecef085c587e7efbfe151c4ce7b832-scaled.png)
网友直言,mini和nano完全可以当做「龙虾」的主力模型来用!
![图片[4]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002807599-1773851287-764e58118b2003c1f3d1b8edc5c38bf9.png)
![图片[5]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002809530-1773851289-fc74086794fd6c4fe6a5eb7550724eea.png)
GPT-5.4 mini有400k超大上下文,输入价格0.75美元/百万token,输出价格4.5美元/百万token;
GPT-5.4 nano输入价格0.2美元/百万token,输出价格1.25美元/百万token。
相较于GPT-5.4,mini输出价格是其1/3,而nano价格只有1/12。
![图片[6]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002812914-1773851292-c195b3e26f56931bc98ff14f2521f7dd.png)
如今,快、强、便宜,三个词同时成立了。
而在半年之前,这是完全不可能的。
![图片[7]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002815461-1773851295-a7c630660f6e7738b1e8a41421715983.png)
![图片[8]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002817331-1773851297-9cc02984264a73ff717fb5cede5d5989.png)
有人试用后惊叹道,简直太香了!不仅速度快,还要比Claude 4.6 Opus便宜9倍。
![图片[9]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002820881-1773851300-f78ec665f1eaaca238f3471f31cfb1fa.png)
![图片[10]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
先看编码。
SWE-Bench Pro是目前衡量大模型「真实编码能力」最硬核的基准之一,它不考填空题,而是让模型直接修复GitHub上的真实软件Bug。
GPT-5.4 mini拿下54.4%,距满血版GPT-5.4(57.7%)只差3.3%。
这意味着一个为速度和成本优化的小模型,在解决真实工程问题时,已经摸到了旗舰模型的天花板。
![图片[11]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002823586-1773851303-a567948d11bd677a5be20ea6c08d645f.png)
而上一代GPT-5 mini仅45.7%,mini到mini之间,一代之隔就是近9%的飞跃。
Terminal-Bench 2.0的差距更夸张。GPT-5.4 mini拿下60.0%,GPT-5 mini只有38.2%,提升幅度超过57%。
![图片[12]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002826701-1773851306-95ac7fa64a612e9907c4964bc8d505ed.png)
即便是最小号的nano,也在SWE-Bench Pro上打出了52.4%,比上一代mini还高出近7%。
一个定位于「分类和数据提取」的超轻量模型,代码能力居然碾压上一代的中量级选手,这就是蒸馏模型在过去几个月的进化速度。
对开发者来说,这组数据的实际含义非常直接:
那些不需要旗舰模型「满功率思考」的编码任务,比如定向代码修改、前端页面生成、调试循环、代码库检索,现在可以全部交给mini,速度快一倍,成本低一大截,效果几乎无损。
![图片[10]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
编码只是一个切面,推理和工具调用能力,决定了一个模型能不能真正「干活」。
GPQA Diamond是一个博士级科学推理基准,GPT-5.4 mini取得了88%的成绩,与GPT-5.4仅差5%。
更值得关注的是「工具调用」能力。
Toolathlon主要测试模型在复杂工具链中的表现,不只是调一次API,而是在多步骤任务中正确地组合、排序、使用多种工具。
结果,GPT-5.4 mini得分42.9%,完全碾压GPT-5 mini(26.9%)。
![图片[14]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002828346-1773851308-9197564501f2a1946119b266d15de581.png)
此外,在电信行业专用基准τ2-bench上,mini更是打出了93.4%的超高分,几乎追平满血版98.9%,把GPT-5 mini(74.1%)远远甩在身后。
在另一个工具调用基准MCP Atlas上,GPT-5.4 mini拿到57.7%,而GPT-5 mini只有47.6%。
这些数字汇成一句话:GPT-5.4 mini不只是一个「缩小版的聪明模型」,它是一个真正能在生产环境中独立完成复杂任务链的执行者。
![图片[10]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
GPT-5.4 mini真正让人意外的,是它在计算机使用上的表现。
人怎么用电脑?眼睛看屏幕上的UI元素,大脑判断该点哪里,手去操作鼠标和键盘。
如果AI要真正成为你的「赛博助理」,它也得学会这套——快速解析一张信息密集的屏幕截图,定位按钮、输入框和数据列表,然后做出正确操作。
OSWorld-Verified就是测这个「视觉理解+推理+操作」三位一体的综合能力的。
在这张榜上,GPT-5.4 mini拿到了72.1%,而旗舰版GPT-5.4是75.0%。差距不到3个百分点。
反观GPT-5 mini只有42.0%。一代之间,计算机使用能力几乎翻了一倍。
![图片[16]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002830997-1773851310-ea6659168b7acd304bbfe5a69d789c8f.png)
不过,nano在这项测试中只拿到了39.0%,甚至略低于上一代GPT-5 mini的42.0%。
这说明计算机使用任务对模型的视觉推理能力有很高的门槛要求,不是单纯缩小模型就能保住的:mini和nano之间存在一道清晰的能力断层。
在MMMUPro(含Python工具)上,mini拿到78.0%,旗舰版81.5%,差距同样很小。
这个基准涵盖了大量需要结合视觉信息和数学/代码工具进行推理的复杂题目。
![图片[17]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002832276-1773851312-f9eaf48e81ab9e50580ff1b069945222.png)
这组结果对一个特定方向有重大意义:AI Agent。
当一个小模型能快速解析信息密集的UI截图,并在低延迟下做出正确操作决策时,它就成了构建实时计算机使用Agent的理想引擎——成本低,响应快,能力够。
在TBPN最新访谈中,奥特曼明确了下一步愿景:
OpenAI将推出一个进化版的Codex,新版本不再局限于编程,将演变成一个「控制计算机」的强大工具。
在他设想中,人们可以完全通过手机启动并管理新任务,真正的终极体验是,拥有一个基于统一后端的个人专属的AI。
它能访问个人所有数据、想法、素材、记忆,并能跨越多个终端,无缝执行任务
![图片[10]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
这次发布中,OpenAI花了不少篇幅阐述一个理念:最好的AI系统,不一定要用最大的模型来处理所有事情。
他们提出的架构思路很清晰:
旗舰模型GPT-5.4负责规划、协调和最终决策,然后把具体任务分发给GPT-5.4 mini子智能体并行执行。
搜索代码库、审查大型文件、处理支持文档,这些不需要「深度思考」但需要「快速完成」的工作,全部交给mini。
![图片[19]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002835964-1773851315-e85ba332ddaf70e9f31ae7cc3a8b8cac.png)
在Codex中,这套架构已经落地了。
开发者可以让GPT-5.4制定整体方案,然后自动调度mini子智能体去执行各个子任务。
而且mini在Codex中只消耗GPT-5.4配额的30%。
也就是说,同样的预算,你可以跑三倍多的mini任务。
![图片[20]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002837206-1773851317-69ad3b5d964dca94b4e1e561a7b48caa.png)
![图片[21]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002840281-1773851320-88090f894df0e4acde5a3d73befb60ef.gif)
这种「分层调度」的思路,其实是整个AI行业正在收敛的共识。
与其追求一个无所不能的超大模型,不如构建一个分工明确的模型协作系统。
旗舰模型像总指挥,mini模型像执行团队,nano模型像处理琐碎事务的助理。
对开发者来说,这意味着架构设计的思路要变了。
以前是「选一个最强的模型,所有任务都扔给它」;现在是「根据任务复杂度,动态路由到不同层级的模型」。
Hebbia的CTO Aabhas Sharma给出的评价很有代表性:
GPT-5.4 mini在多项输出任务和引用召回率上,以低得多的成本匹敌甚至超越了竞品模型,还实现了比更大模型更高的端到端通过率。
「更小的模型,更好的效果」,这句话放在两年前像是天方夜谭,现在已经成了工程实践中的真实场景。
![图片[10]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
今天,GPT-5.4 mini已经全线上线,API、Codex、ChatGPT三端同步开放。
API定价为输入0.75美元/百万Token,输出4.50美元/百万Token,上下文窗口400K。
支持文本和图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用等全套能力。
![图片[23]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002843381-1773851323-12e1a531b1c01fa0ba31f70eaf60ddde.png)
GPT-5.4 nano仅在API中可用,价格为输入0.20美元/百万Token,输出1.25美元/百万Token。
做个对比。GPT-5.4 nano的输入价格是mini的约四分之一,输出价格也不到mini的三分之一。
对于分类、数据提取、排序这类高频但低复杂度的任务来说,nano的性价比几乎无敌。
在ChatGPT端,GPT-5.4 mini已向免费用户和Go用户开放,可以通过菜单中的「Thinking」功能使用。对于付费用户,当GPT-5.4 Thinking额度耗尽时,mini会自动作为降级备选方案。
这个策略很聪明,让免费用户也能体验到强大的推理能力,降低使用门槛的同时扩大用户基盘。
而对付费用户来说,mini的存在让「额度焦虑」大大缓解。
![图片[24]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005946-e42712f61a4e6b0adba95f6bacb450c6.png)
当然,mini不是没有弱点。
在长上下文处理上,GPT-5.4 mini和旗舰版的差距比其他维度更明显。
OpenAI MRCR v2测试在64K-128K窗口下的8针搜索任务中,GPT-5.4拿到86.0%,mini只有47.7%,差距接近40个百分点。在128K-256K窗口下,这个差距进一步拉大到79.3%对33.6%。
![图片[25]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002848936-1773851328-a72df45bbe2fbad13beb2b33881a2cab.png)
Graphwalks系列测试也呈现类似趋势。在父节点追踪任务上,GPT-5.4拿到89.8%,mini是71.5%。
这说明在需要对超长文本进行精确信息检索和逻辑追踪的场景下,mini的能力上限还是显著低于旗舰版。
对于需要处理大规模文档分析、长对话记忆保持等任务的开发者来说,GPT-5.4仍然是不可替代的选择。
不过话说回来,这也恰好印证了OpenAI的产品分层逻辑:不同的任务,用不同的模型。
mini不需要在每个维度都追平旗舰,它只需要在自己主攻的方向——速度、编码、工具调用、计算机使用,做到足够好就行。
![图片[10]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/05/1748005937-e247941b79065a0391afc9648900dec5.png)
技术在狂奔,但人的情绪要复杂得多。
今早,奥特曼在X上发文:
我对那些逐字逐句写出极其复杂软件的人,充满感激。
现在已经很难想象那曾经需要多大的努力了。谢谢你们把我们带到了今天。
![图片[27]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002850242-1773851330-44752f1272a6b674253f5a0e7133141c.png)
评论区瞬间炸了。
大量开发者读出了另一层意思——感谢你们的贡献,但这个活以后AI来干了。
![图片[28]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002852486-1773851332-98cc2db99a14295e874bb51ec2e189a0.png)
有人回怼:谢谢啊,原来我们的回报就是丢掉工作。
![图片[29]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002855940-1773851335-22ea68da3e8884f3a6021d5921a88e5d.png)
也有人直指训练数据争议:模型本身就是用这些开发者的代码喂出来的,现在反过来替代他们,这算哪门子感激?
![图片[30]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002858823-1773851338-2b7bd737ccc57a2a5e175601dfbdce74.png)
不过也有人借此提了个值得思考的问题:
当语法层面被AI解决,软件工程的核心竞争力是不是该从「怎么写代码」转向「怎么设计系统」?
![图片[31]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260319002901987-1773851341-fffa400c6c421939480187de8fe86ba8.png)
争议归争议,趋势不会因为情绪而停下。
回望科技史,从大型机到PC,从拨号上网到移动互联网,每一次真正的技术革命都不是靠最强最贵的产品完成的。
革命完成的标志,是技术变得像水和电一样——廉价、无感、无处不在。
GPT-5.4 mini在SWE-Bench Pro上追到了旗舰版的94%,在OSWorld上追到了96%,在GPQA Diamond上追到了95%。速度是前代的两倍,成本是旗舰版的零头。
对普通开发者来说,这意味着曾经只有大厂才玩得起的AI能力,现在用mini的价格就能接入。
对AI应用创业者来说,这意味着产品的推理成本可以再降一个数量级。
对整个行业来说,这意味着AI的渗透速度将进一步加快,因为挡在前面的成本和延迟两道墙,正在被小模型一砖一砖地拆掉。
大模型负责思考,小模型负责执行。旗舰模型定义智力的天花板,小模型打通AI走进每一个应用的毛细血管。
这不再是愿景,而是今天就能跑起来的架构。
![图片[32]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/10/c79a0da0a19ad66c831baa7a391a0e27.jpeg)
![图片[33]-GPT-5.4 mini+nano突袭,1/3价格养满血「龙虾」!OpenAI彻底杀疯-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/01/20260101203539201-1767270939-a915c63cfe6f7cc68cc454f351b00750.jpeg)
<原文链接:https://mp.weixin.qq.com/s/2hpcOsnLirmjeopKFFCl3w


















暂无评论内容