共计 3749 个字符,预计需要花费 10 分钟才能阅读完成。
【本文要点】
OpenAI 近期在 DevDay 上展示了其未来蓝图,主要分为四个部分:
-
软件生态体系:OpenAI 推出的应用 SDK 将大型语言模型(LLM)设定为软件的入口,整合多个工具与应用,实现无缝协作,增强用户体验。
-
AgentKit:新的可视化代理开发工具,简化了开发流程,允许用户通过拖拽设计复杂业务逻辑,提升开发效率。
-
Codex:正式版上线,增强与 Slack 等平台的集成能力,同时提供新 SDK 以便企业更好地应用其功能。
-
API 更新:发布了强大的 GPT-5 Pro 与 Sora 2 API,开放视频生成能力,致力于实现更广泛的应用整合。
总体来看,OpenAI 寺的目标是构建一个围绕其大型模型的封闭且强大的软件生态,商业化趋势愈发明显,似乎正在淡化通用人工智能(AGI)的愿景。
【正文】
如果说,前几天刚刚登顶,app 榜的 sora 2 是 openai 技术硬实力的直观展现,那么美国时间 6 日举办的 6 日举办的 openai devday,则更清晰地展示了 openai 的野心。
整场发布会的内容可拆解为四个部分,除了 api 开放之外,其他三个部分一起构成了,openai 的未来蓝图,也可能是所有 ai 公司的未来路径:构建一个以 ai 为绝对核心的全新软件生态体系。
发布会上展示的功能,大多可视为过去两年 ai 技术演进的线性延伸,并无太多意外之处。但 openai 此次首次将这一蓝图更系统化、平台化地呈现出来。
现在,就让我们一起逐步拆解,这个宏大的蓝图都由什么构建而成。,这个宏大的蓝图都由什么构建而成。
一、llm,作为软件的唯一入口
“llm 即将成为所有软件的入口”,这个在 2024 年人们脑中还略显模糊的想象,到 2025 年已然成为共识。
Openai 此次推出的应用 SDK,基于已建成的 MCP 体系,首次将这一愿景的实现路径完整呈现出来。,首次将这一愿景的实现路径完整呈现出来。

应用 SDK 是一套完整的开发堆栈
此前,claude github copilot 等其他产品虽有工具使用能力,但只是将外部服务的结果以文本形式返回,缺乏真正的上下文理解和自然的交互界面。也就是说,过去的工具难以真正被“用起来”
现场展示了这样一个案例:
当用户正在为宠物狗业务进行头脑风暴时,“@”出 canva,它会立刻理解之前用户和它聊到的所有点子,并根据,“色彩丰富、异想天开”,生成一系列精美的海报。,生成一系列精美的海报。
如果灵感迸发,用户甚至可以要求它把其中一张海报直接扩展成一份完整的商业计划书(,俯仰甲板)。

而当业务需要扩张时,chatgpt 会根据上下文建议用户考虑“匹兹堡”,并无缝唤起
接着,用户还可以跟它继续沟通

这一系列操作行云流水,背后展现的是应用程序 SDK 将不同应用无缝融合的能力。
应用程序,而是能随时被调用、能完全理解对话上下文、并以视频、地图等丰富形态呈现结果的智能插件。用户无需在不同软件间切换,只需通过对话,就能在一个统一的入口中,让最合适的工具在最恰当的时机出现,并协同完成一项复杂的任务。,并协同完成一项复杂的任务。
Openai 发布的重要进展是基于 mcp,使开发者可以设计其应用的逻辑和界面。结合 gpt 本身对图像的识别能力,它让
因为对话和理解的便捷性,尤其是

(演示中有一段跨对话记忆的展示,chatgpt 在另一个对话中延续了上一个对话的话题)
这种强大的上下文理解能力,llm 有望成为主流软件入口的核心竞争力之一。
而 app 也不再是功能孤岛,而是能被随时唤醒、能充分理解对话背景的“插件”,并以最合适的用户界面融入当前的对话流中。
用户的主入口只有一个,就是 chatgpt 的对话框。
那如何让 app 更好地适应用户需求,和对话更好的连接,以推动万物都在 llm 内的大计呢?
这就要靠这场发布会的第二部分,AgentKit 了。
二、代理时代来的太慢,我们来推一把,我们来推一把
此前行业间普遍将 2025 年称作“代理”,可如今时间已行至 10 月,市场上却始终未出现能复刻去年市场上却始终未出现能复刻去年
Openai 希望让代理时代来得更快,他们推出了号称“最简便、快捷”的代理开发工具包开发工具包开发工具包开发工具包
面对 dify,coze 等市场主流工具,openai:让一切回归可视化。:让一切回归可视化。
AgentKit 的核心是一套可视化的画布“Agent Builder”,开发者不再需要从零开始编写代码,而是通过拖拽和连接不同的功能节点,比如文件搜索等,来直观地设计和测试复杂的业务流程。,来直观地设计和测试复杂的业务流程。

此外,AgentKit 还提供了名为“Chatkit”的可嵌入聊天组件,让开发者能轻松地将具备品牌定制能力的聊天界面集成到自己的应用中。,让开发者能轻松地将具备品牌定制能力的聊天界面集成到自己的应用中。

同时,它还有一个连接器功能,可以直接把代理商的代理工具建构和企业内部数据和工具联系到一起。
为了展示代理商的便捷性,产品经理克里斯蒂娜 8 分钟,从零开始为一个静态的 devday 活动官网构建并上线了一个智能问答代理。

从演示中可以看到,AgentKit 只有代理,端(结束)

每个代理中,可以使用文件搜索、安全防护和 MCP 应用这三个工具。也可以将它们作为功能点加在外部。

目前看,这个,AgentKit 并没有整体在设计逻辑上超越 dify 类工具很多,但确实更精简,更易用。,更易用。
但是,如果想让习惯了 dify 类用户真正转投 openai 门下,还有两个重要的原因:
第一,是 rft(强化学习微调)的定制。
第三方工具只能将 gpt gpt 作为 api“黑箱”,而,aentai 则能深入模型内部进行优化。目前
这对于想用 gpt 作为基础模型,达成最好的代理效果的公司和开发者来讲,是个巨大的优势。,是个巨大的优势。
第二,是,AgentKit 的 evals 板块。
它增加了“数据集构建”,“跟踪评估”和“自动化提示优化”等能力,允许开发者对工作流进行端到端的评估,精准定位并修复问题。这对于,精准定位并修复问题。这对于,确实十分便捷。

今天的展示,Openai 发布的代理 Alpha 版本,就是 gpt 商店的命运。当时,模型主要依赖上下文,无法有效调用工具和数据,导致应用场景受到很大限制。而当下
但是,openai 已经开始做了,这些问题也许可以更快地找到解法。,这些问题也许可以更快地找到解法。
三、法典,小露了未来编程的一手
不论是开发代理,还是部署 app,最底层的都是编程。
sam altman 介绍,自八月上线以来

本次发布会中,codex 正式从研究预览版转为正式版(
首先是 slack 集成。这是一个被社区呼吁已久的功能。现在,团队可以直接在日常沟通的 slack 频道中调用 codex,让它在对话流里直接回答技术问题或编写代码片段,无需切换应用,无需切换应用
其次是推出了全新的 codex sdk。这使得企业可以将 codex 的能力作为模块,自动化并扩展到自己内部的开发工作流中,让法典能更好地融入企业现有开发体系。

最后,openai 提供了一套新的后台管理与报告工具。这包括了环境控制、监控、分析仪表盘等一系列功能,让企业的管理者能够更好地追踪和管理法典在组织内的使用情况。

但这些升级,远不如现场最后的那段演示来得震撼。演示者拉曼的目标是仅通过对话,让现场的语音助手调用 codex sdk,命令它做一个滚动的开发者名单。codex 在后台实时修改了前端应用的,代码,屏幕上立刻开始滚动开发者的姓名。,屏幕上立刻开始滚动开发者的姓名。

这个场景就是 openai 预想的软件开发的未来 - - 你甚至不需要看到代码,软件就可以在与你的对话中,实时地自我迭代和进化。,实时地自我迭代和进化。
四、api:gpt-5 pro,sora 2 全面上线
除了上述三个构成全新生态的板块,发布会第四部分是相对传统的 api 更新。
首先,Openai 迄今为止最强大的模型 gpt-5 Pro 正式通过 api 向所有开发者开放。
其次,为了普及语音交互

而其中最重要的是 sora 2 api 的开放。这意味着,开发者终于可以将,openai 顶级的视频生成能力,集成到自己的产品中。,集成到自己的产品中。
这个 api 的开放,表明未来在各种应用中,我们都可以方便地用上 sora 2 来创作内容了。
五、商业帝国的轮廓,已经盖住了 agi 的图景今年的旗舰模型 gpt-5,尽管依旧强大,却缺少了当初 gpt- 4 发布时那种跨时代的惊艳感,它更像是一次稳健但可预期的迭代。
sora 2 的发布也是如此,其真正的惊艳之处
这是一个天才的产品构想,但它的光芒更多来自于商业嗅觉,而非底层的技术革命。,而非底层的技术革命。
此次 devday,正是这一趋势的集中爆发。无论是试图将所有应用纳入对话框的应用程序 SDK、旨在统一开发标准的代理商,还是面向企业深度定制的 codex,Openai 的每一步动作,都在沿着一条早已清晰的路径深耕:搭建一个以自家大模型为绝对核心、封闭且极具掌控力的软件生态。:搭建一个以自家大模型为绝对核心、封闭且极具掌控力的软件生态。

只是,我们分明能感受到
如今的 OpenAI,商业帝国的轮廓愈发清晰,甚至已经隐隐盖住了通用人工智能(,agi)的远景图景。