Agent Lab/Model Lab,西线无战事

上一篇写了Neo Lab(LLM scaling law诞生的巨头没有在主要发力的研究方向,核心是利用新方法开发 AI 模型和研究) 。发现硅谷VC们无聊地把Agent Labs也单独拿出来成了一个造的新词:Cursor(29 亿美元)、Perplexity(20 亿美元)、Cognition(10 亿美元)、Sierra(10 亿美元)、Lovable(2 亿美元)、Gamma(2 亿美元),以及像 Notion(10 亿美元)、Vercel(9 亿美元)、Glean(7 亿美元)和 Replit(3 亿美元)这样成功转型 AI 的旧公司。华人创业者,Manus、Genspark、Lovart也算在内。

Model Labs 主要研究和销售模型,而 Agent Labs 主要研究和销售Agent。一聊这个,肯定又是大而泛的概念居多,但我们也可以从商业/人员等等角度回溯一些facts。

  • Agent Labs 与 Model Labs 之间区别具有意义的前提条件是,嵌入在 Model Labs 中的 Agent Labs 变得如此强大和重要,以至于它们基本上在模型树上创造了一个持久的分支。
  • 具体来说:直到 2025 年,Model Labs 追求“AGI”的概念意味着一个能够做所有事情的模型——回答 MMLU、编写完整堆栈应用程序,并且还能扮演朋友的角色。这赋予了“AGI”中的“G”。
  • 一年多一点之前,GPT 4o 的发布承诺统一音频/图像/文本输入和音频/图像/文本输出。“4o”中的“o”本意是“omnimodel”。
  • 然而,至今 GPT5 仍未实现全模态性,GPT5 路由器持续存在的问题、gpt-5-codex 与普通 gpt-5 的持续存在,以及 Fidji Simo 的博客文章标题直接为“超越一刀切”。
  • 理解和好的benchamark赋能的生成模型进展有但不惊人(大家一般都在惊讶于一些之前不行但现在行的用户案例),Computer Use和更好的Agentic要等下一个训练周期,可能在明年。
  • 这些都表明,至少目前,Model Labs 的愿景可能正在转变,至少要等到下一次重大的算法变革。

几张图和背后的逻辑

至少,在这个略显无聊的时间点,关注所谓的"Agent lab"是一个好的时候。我们会看几张图:

Image
  1. 1. 以产品为先,模型为后:“Neolab”的方式是 Magic.dev 筹集 1 亿美元来开发其长上下文模型的方法。相反,Cursor 首先fork了 VSCode,并在理解用户需求两年后才开始开发模型。
  2. 2. 基于结果的定价或营销:当你是一个模型实验室时,你正处于每年 9-900 倍的distill过程中,并且在与 LLM token价格方面几乎没有定价权。人们抱怨并最大化你的每月 20 美元的订阅。当你是一个 Agent Lab 时,你可以收取每月 2000 美元或按结果收费,只要结果成立,你就会有更高的利润率、定价权和甚至增长,因为你可衡量地替代了部分人类劳动。
  3. 3. 自主性方法:模型实验室通常想从用户手中夺取控制权,因为他们优先考虑小时级别的自主性,这更容易测试,或许也是追求完全自主的通用人工智能(AGI)的关键路径。他们强调轻量级套件(构建有效Agent和技能),因为他们与模型团队紧密合作,并认为下一次模型升级可能会抵消套件带来的收益。Agent 公司优先考虑速度、可审计/人工循环控制和多轮交互性,并且不介意每隔几个月就重写套件,以将未来的收益带到今天。
  4. 4. 评估/指标/优先级:(这是一个较弱的点)前沿模型实验室的图表通常是单维度的,因为它们专注于推动最大能力(例如 IMO、IOI),而忽略成本。Agent实验室关注高volume和实际使用,并且通常关心智能/成功与成本之间的帕累托最优。
Image
  1. 1. 模型雇佣“应用人工智能工程师”的薪水大约是“研究人员”的一半(当然,考虑到研究人员和研究工程师薪酬中的方差,这个比例当然差异很大),而 FDEs 和 GTMEs ,工程师们往往是Agent实验室中最重要的角色,这些实验室基本上就是为了最大化从客户那里学习而存在的。
  2. 2. OpenAI 最近分享了他们的内部销售助理、支持代理、研究助理、合同数据和 GTM。Vercel(一个也是拥有 Agent 实验室的 AI 云平台)最近分享了他们 5 个代理的教训,从支持到 v0 到代码审查到线索生成到数据分析师。这是一个经典的科技策略玩法:使你的补充品商品化。Model Labs 会免费教你如何构建代理,Agent Labs 会乐意抽象掉模型选择器,转而使用任务模型。Model Labs 并不真正在意 B2B/企业需求,Agent Labs 则关注。
  3. 3. 关于 Model Labs 和 Agent Labs 的一个(较弱的)迹象是,收购后留任的创始人中有很高比例的人离开 Model Labs,而 Agent Labs 则倾向于炫耀他们有多少前任创始人(更注重产品)。
Image

跟某炙手可热的AI硬件厂商的合伙人好朋友聊,会发现AI硬件在开拓新品的时候也会招不少ex-founder。

模型(Neo)实验室极其依赖资本,但Agent实验室拥有更好的现金流经济性,但您需要等待 10-15 年才能看到它们的退出估值与中位数模型实验室/Neo 实验室相比会是怎样。(对于投资人来讲,投资Neo Labs代表着更低的胜率,更长的耐心和更高的赔率)

大模型厂和大厂们的两难

Epoch 的估计表明,OpenAI 的所有推理计算(包括 ChatGPT 的所有计算、Sora 的所有计算、Codex 的所有计算、API 推理的所有计算、所有内部使用等)仅占其计算资源的 28%(蓝色部分):

Image

尽管每个人都谈论 ChatGPT 以及最近推出的 Sora 和 Atlas 等产品,但 OpenAI 绝大多数资源都致力于未发表的研究,这是理所当然的。(当然,Gemini让Sam调整了策略,目前可能会出现一个更为玄学的问题,面对真正的Lab——资金资源雄厚的大厂面前,研究型独角兽偶尔会身份转变成为一个产品型公司,一个Agent Lab公司)。

Google、OpenAI、Anthropic、国内LLM大厂、国内LLM startup,一步一重楼。Startups不一定有敏捷优势,大厂也不一定真的那么strong,忽略细节的宏观分析正在变得越来越无意义。融了钱和赚了钱投入什么钱和人做什么事,这些细节才关键。

LLM startup到底做云还是做产品,对于OpenAI(拥有ChatGPT)和其他人,答案是不一样的。

LLM大厂到底持续做模型云还是卷一卷Neo Lab们等下一波,对于Google(拥有TPU、产品路线、良好的多模态)和其他人,答案也是不一样的。

Agent Labs 进入收获季(为什么我们此刻讨论)

Model Labs 将不到 30%的预算用于推理,产品经常被放弃:Operator、NotebookLM 音频概览、计划任务、深度研究。Claude Code、Codex 和 Sora,以及可能的 Claude for Finance。Model Labs 正在这些内部构建 Agent Labs,与此同时 Agent Labs 也开始构建自己的模型。

前沿模型实验室的数量不仅没有减少,反而增加了,包括中/美开源模型实验室,这意味着 1)你可以在所有这些实验室中实现能力最大化,2)人们愿意付费请人替他们实现能力最大化,以完成全职工作,即保持对最前沿技术的跟进,并构建最佳的模型与任务适配方案,这些事情是Agent公司该做的。

Agents are Systems:模型选择器是个谎言。现实世界中的Agent是(模型、提示、记忆、工具、规划、编排、认证)的集合,因此模型实验室在构建此类端到端系统方面的竞争优势下降,因为它们主要在模型层进行差异化。但这也不是非黑即白的,environment需要工程构件,但environment是下一波模型的必须项,又与产品设计紧密结合。

GPT-1(2018)以来,现在已有大约 7年的预训练扩展,其中人类平均响应的常识和自监督语言建模已基本解决,我们接近预训练数据的极限。强化学习时代奖励领域专注/专用环境,以及匹配/超越最佳人类。

Image

现在像 Cursor 和 Cognition 这样的 Agent Labs 基本上可以从越来越强大的开源权重模型开始,仅进行持续训练。让我们关注 Sasha Rush 在 Ray Summit 上的演讲,你会发现 x 轴是 logarithmic scale,虽然未量化,但可以推测 Cursor 现在表示他们的 post-training 能在很大程度上弥补最佳开源模型和最佳前沿模型之间的差距。他们还需要多久才能开始超越?

Image

Agent Labs 的实验室部分同样重要。

再call back一下,Startups不一定有敏捷优势,大厂也不一定真的那么strong。Agent公司也需要模型研发,模型公司一定需要产品和工程,忽略细节的宏观分析正在变得越来越无意义。融了钱和赚了钱投入什么钱和人做什么事,这些细节才关键。

<原文链接:https://mp.weixin.qq.com/s/Sq4rsEdPg2I9FeWJqvJODQ

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
thinkingloop的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容