英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹-AI Express News

henry 发自凹非寺
量子位 | 公众号 QbitAI

世界第一也着急，英伟达迎来架构换血！

据悉，在即将开幕的3月圣何塞GTC大会上，黄仁勋将发布一套全新的AI推理系统——

核心是一颗专为推理优化的新芯片。

而且芯片的首位大客户已经敲定，就是刚刚完成1100亿美元巨额融资的OpenAI。

更引人关注的是，这款芯片的底层架构并非来自英伟达自研，而是由原Groq团队打造的LPU（语言处理单元）架构。

这意味着：英伟达第一次在核心AI算力产品线上，大规模引入外部架构设计。

而这次“不自造”的背后，是去年那笔震动行业的交易——

英伟达斥资约200亿美元，完成对Groq核心技术与团队的“acqui-hire”（收购式招聘）。

如今，这枚推理芯片，正是那笔投资的第一次落地。

依旧是典型的黄仁勋式策略：买成熟方案，快速部署，直接上战场，一分冤枉钱都不花。

极致的ROI。

是LPU，不是GPU

据《华尔街日报》披露，英伟达正在开发一个新的推理计算系统，该系统将结合Groq设计的芯片，并在GTC大会上正式发布。

与此同时，在OpenAI最新的融资文件中，这一计划已现端倪：

将扩大与英伟达的长期合作，包括使用3GW的dedicated inference capacity（专用推理算力），以及在Vera Rubin系统上提供2GW的训练算力。

如果老黄不跳票，那么这一“专用推理算力”极可能正是基于这颗新芯片。

如开头所说，一旦落地，这将是英伟达第一次在核心AI算力产品线上，大规模引入外部架构设计——

Groq的LPU。

选择直接引入外部架构，而非完全自研，与时间窗口密切相关。

近几个月来，OpenAI等头部客户已在积极寻找更高效率的推理替代方案，并与其他芯片公司展开合作谈判。

在推理需求迅速增长的背景下，英伟达需要更快给出针对性的解决方案。

而这次用LPU，而非GPU，原因就在于推理场景的适配上。

GPU通常将大量模型参数存放在外部HBM（高带宽内存）中，计算核心与内存之间需要频繁数据搬运。在训练阶段，通过大规模并行可以摊薄搬运成本。

但在推理尤其是decode阶段，批量变小、延迟敏感，系统瓶颈更多来自数据移动而非算力本身。

Groq的LPU架构改变了这一逻辑——

它采用高密度片上SRAM，将数据“贴着算力跑”，极大缩短数据路径，从架构层面降低延迟与能耗，更适配低延迟推理场景，理论最高速度可比GPU快100倍。

随着Agent应用逐渐普及，AI算力结构正在从“训练优先”向“推理优先”转移。

推理不再只是训练后的补充环节，而成为规模更大、频率更高的长期负载。

如果英伟达正式将LPU纳入核心产品线，这不仅是一款新芯片的发布，更是对算力重心转移的回应。

这也解释了为何英伟达在去年以约200亿美元完成对Groq核心技术与团队的整合，并引入创始人Jonathan Ross（谷歌TPU之父）等核心成员。

可以说，推理市场正在重塑算力格局，而英伟达势必必须务必拿下。

英伟达推理芯片迎来威胁

过去一年，随着Agent应用爆发，算力需求结构正在发生明显变化：市场重心从训练转向推理。

训练仍然重要，但推理的调用频率更高、规模更大、持续时间更长，成本开始成为核心变量。

一些AI服务商开始将训练与推理分开部署——训练继续使用英伟达GPU，推理则转向更具性价比的专用芯片。

比如，上个月，OpenAI与Cerebras签署数十亿美元计算合作协议。

Cerebras主打推理优化芯片，其首席执行官Andrew Feldman公开表示，其芯片在特定场景下快于英伟达GPU。

Anthropic更多依赖Amazon Web Services与Google Cloud自研芯片支持模型运行，而非完全使用英伟达方案。

Meta也与AMD达成了大规模芯片订单合作，双方正在联合优化用于推理任务的GPU架构，以减少对英伟达的依赖。

在国产方面，模型公司同样开始转向本土算力方案。

在最新的消息中，DeepSeek甚至绕过英伟达，直接将DeepSeek V4的早期访问权限独家授予华为，并已在昇腾平台完成模型迁移。

另一个传闻里，寒武纪也出现在关联中。而不论哪一个传闻，都不利于英伟达。

而根据Bernstein Research预测，到2026年，华为在中国AI芯片市场份额可能达到50%，而英伟达份额或降至个位数。

与此同时，英伟达的竞争对手也在强化推理专用架构布局。

一方面是，早已在TPU布局的谷歌，以及在OpenAI最新融资计划中拿下计算生态合作权的Amazon，都在推动自研芯片在高频推理场景中的落地，其中亚马逊将重点启用自家的Trainium芯片支持Agent等应用。

另一方面，国内诸如字节、阿里、百度等玩家也开始亲自下场制造芯片。

由此，趋势已经很清晰：推理成为主战场，而客户开始分散风险。

那么，为啥GPU不适合推理呢？

因为训练阶段追求的是“大规模并行”和总体吞吐量，而推理阶段则要追求“单token速度”和稳定响应。

具体来说，推理则分为两个阶段：pre-fill：处理用户输入；decode：逐token生成输出。

真正决定用户体验的，是第二步——低延迟生成。

此时系统瓶颈不在算力，而在频繁的存取与搬运。GPU架构虽强，但为并行设计；LPU则调整了存储与计算路径，更贴合推理负载。

正因如此，《华盛顿邮报》甚至评论道：这是AI浪潮以来，英伟达第一次在核心硬件层面面临架构挑战。

虽然英伟达仍占全球GPU市场超过90%，Hopper、Blackwell、即将登场的Rubin系列依旧是训练主力，但面对推理需求暴涨，英伟达也必须正面回应。

而这枚LPU芯片，就是他们的答案。

One more thing

除了这枚神秘芯片，老黄之前还官宣表示：

今年GTC大会上还将发布“世界前所未见”的新系列产品。

外界普遍猜测包括：Rubin系列新一代GPU；Feynman系列全新架构芯片。

或者更具体一点，跳票的消费级显卡？？？

参考链接

[1]https://www.wsj.com/tech/ai/nvidia-plans-new-chip-to-speed-ai-processing-shake-up-computing-market-51c9b86e?st=SdUxv4&reflink=desktopwebshare_permalink

[2]https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer?ncid=no-ncid

[3]https://berttempleton.substack.com/p/nvidias-blackwell-ultra-and-vera

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

一键关注 👇 点亮星标

科技前沿进展每日见

<原文链接：https://mp.weixin.qq.com/s/gENKvqs8MEBPKE888pMPtA

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

英伟达放弃GPU上LPU：新推理芯片被曝Groq即买即用，OpenAI第一个吃螃蟹

henry 发自 凹非寺 量子位 | 公众号 QbitAI

是LPU，不是GPU

英伟达推理芯片迎来威胁

One more thing

请登录后发表评论

henry 发自凹非寺
量子位 | 公众号 QbitAI