共计 4214 个字符,预计需要花费 11 分钟才能阅读完成。
【本文要点】
本文总结了 OpenAI 在 8 月 8 日发布的 GPT- 5 的主要特点和性能提升:
- 性能提升:GPT- 5 在多个领域(如数学、编码、长文本理解)表现显著优于前代,编码能力极强,并减少了回答中的“幻觉”现象(错误信息)45% 至 80%。
- 安全性改进:引入“安全完成”机制,确保在潜在风险问题上以安全方式提供高层次答案,减少误导和错误。
- 用户友好的功能:用户可通过简单提示生成软件或应用,且新模型引入了四种“人格”选项,提升交互体验。
- 广泛应用:GPT- 5 将在微软产品中快速集成,如 Microsoft 365 等,同时对所有 ChatGPT 用户开放使用。
- 收费结构:GPT- 5 标准版每百万输入和输出代币的定价,提供不同的使用计划以满足多样需求。
- AGI 目标:Altman 表示,GPT- 5 使 OpenAI 更接近通用人工智能的目标,但仍缺乏一些关键能力。
综上所述,GPT- 5 通过技术创新和用户体验优化,实现了显著的进步。
【正文】
Openai 首席执行官萨姆·Sam Altman)称
gpt- 5 现通过现通过现通过



gpt-5:数学(aime 2025 无工具得分 94.6%)、编码(SWE-SWE-BENCHEN FEER FEER FEER FEAL FEER FEER FEAL FELED 74.9%,Aider Polyglot 88%)(MMMU 84.2%)(HealthBench HealthBench Hard Hard 46.2%)
gpt- 5 显着减少“幻觉”,在匿名 chatgpt 流量测试中,回答包含事实错误的概率比 gpt-4o 低 45%,推理模式下比 openai o3 o3 低 80%。
在 longfact factscore 等事实性基准测试中,gpt-5(带推理)的幻觉率约为 o3 的六分之一,确保长篇内容更准确。openai 引入“安全完成”,训练
Openai 在 gpt- 5 开发过程中进行了广泛的安全评估,包括 5000 小时的测试。openai 称,gpt- 5 不会直接拒绝回答可能存在风险的问题,而是采用“安全完成”,提供符合安全限制的高层次回答,以避免潜在危害。,以避免潜在危害。,以避免潜在危害。,以避免潜在危害。
在简报会上,OpenAi 展示了 gpt- 5 的“氛围编码”,即用户通过简单的文字提示即可生成软件。,即用户通过简单的文字提示即可生成软件。openai 的研究人员要求 gpt- 5 开发一个帮助英语使用者学习法语的网页应用,需具备吸引人的主题,包括闪卡、测验和每日进度跟踪功能。,包括闪卡、测验和每日进度跟踪功能。
Openai 在两个 gpt- 5 窗口中输入相同提示,模型在几秒内生成了两个不同的应用。,模型在几秒内生成了两个不同的应用。,这些应用,“有些粗糙”,但用户可根据需要进一步调整

根据微软的博客文章,gpt- 5 将迅速集成到微软产品中,包括 microsoft365 副本、面向消费者的副副标士以及供开发者将 ai azure ai ai fistry。
tox 近几周对 box 近几周对 gpt-5 box 首席执行官亚伦·(Aaron Levie)表示
gpt-5:模型能力全面“屠榜”,构建“超级智能”
经历过无数次「跳票」之后,gpt- 5 终于来了。
北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 openai 夏季发布会拉开帷幕。
与此前 openai 速通式的发布会明显不同,这次,openai 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 gpt- 5 的强悍性能。


尽管 chatgpt 的周活跃用户已接近的周活跃用户已接近,但,openai 过去一段时间实际上并未拥有行业领先的前沿模型。现在
altman 甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型」,也是世界上在医疗保健领域最强的模型」
同时 openai 也在发布会上宣称,除了代码能力爆表,gpt- 5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 gpt- 5 不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。,拍马屁的倾向也大大降低了。
01
告别「幻觉」,ai 更可靠了
首先是本次更新的模型阵容,gpt- 5 系列一共 gpt-5,mini,nano,chat 四个版本

这背后其实是(openai Router)(路由器),它会自动为更复杂的查询切换到推理能力更强的版本,Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。)
「ai 幻觉」一直是大家吐槽的重灾区。好消息是,gpt- 5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显着降低」。具体来说::
在联网搜索时,gpt- 5 的回答出现事实错误的概率比 gpt-4O 低了 45%。



这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是::
犬儒(愤世嫉俗)
机器人(机器人)
倾听者(听众)
学霸(书呆子)
这些模式是可选的,你可以根据自己的喜好,设定,设定
「这个模型给人的『感觉』真的很好
此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。,代码编辑器主题爱好者狂喜了。

02
「软件按需生成」时代来临?代码能力逆天
随着代码能力的进一步提升,Altman 预测,GPT- 5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。
在 openai 的测试中,gpt- 5 在 swe-bench,swe-lancer,和 aider polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42%的成绩,在 swe 基准测试中取得 75%的成绩。

在发布会上,Openai 的后期训练负责人 Yann Dubois 使用 gpt- 5 现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,gpt- 5 就编写了数百行代码,并直接展示了网站的前端界面。他在

03
更安全,更「诚实」,更「诚实」
据模型安全研究负责人亚历克斯·贝特尔(Alex Beutel
虽然 gpt-5(幻觉)比 openai 的 o3 推理模型要少,但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体(,代理),这个问题会变得更加复杂。不过
对于以前会直接拒绝回答的提示,gpt- 5 将提供 openai(安全完成))beutel 解释说:「比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」
04
如何用上 GPT-5
那么,大家最关心的问题来了:怎么才能用上 gpt-5 呢?
好消息是,所有 chatgpt 用户都可以现在立即免费体验到 gpt-5。这也是 openai 第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同:
加上订阅用户在达到使用上限前,可以有更多的使用次数。
Pro 订阅用户则可以访问具备更强推理能力的 GPT-5 Pro 版本。
当用户达到使用上限后,chatgpt 会自动切换到一个「迷你版」的 gpt- 5 来处理后续的请求。同时,随着 gpt- 5 的上线,它将正式取代 gpt-4o,openai o3,openai o4-mini,gpt-4.1 和
此外代币定价部分,标准版 gpt- 5 为每百万输入代币 1.25 美元,每百万输出代币 10 美元。Mini 版 nano 版定价都便宜不少。nano 版定价都便宜不少。



最后,Altman 表示,Openai 的使命是开发通用人工智能(a(agi)。gpt- 5 使他们更接近这一目标,尽管整个行业已经开始转向构建所谓的「超级智能」。,尽管整个行业已经开始转向构建所谓的「超级智能」。
「我有点讨厌 agi 这个词,因为现在每个人对它的定义都略有不同,」,Altman 说
然而,他也承认相比起真正的,agi,gpt- 5 仍然「缺少一些非常重要的东西」。
「这不是一个模型,它是从它所发现的新事物中所生长出来的原生事物,对我来说,这正是它为什么能成为
【新闻来源】