henry 发自 凹非寺
量子位 | 公众号 QbitAI
世界第一也着急,英伟达迎来架构换血!
据悉,在即将开幕的3月圣何塞GTC大会上,黄仁勋将发布一套全新的AI推理系统——
核心是一颗专为推理优化的新芯片。
而且芯片的首位大客户已经敲定,就是刚刚完成1100亿美元巨额融资的OpenAI。
![图片[1]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011553382-1772471753-aa6481249d83e38a752b4e5d9c6dc69e.png)
更引人关注的是,这款芯片的底层架构并非来自英伟达自研,而是由原Groq团队打造的LPU(语言处理单元) 架构。
这意味着:英伟达第一次在核心AI算力产品线上,大规模引入外部架构设计。
而这次“不自造”的背后,是去年那笔震动行业的交易——
英伟达斥资约200亿美元,完成对Groq核心技术与团队的“acqui-hire”(收购式招聘)。
如今,这枚推理芯片,正是那笔投资的第一次落地。
依旧是典型的黄仁勋式策略:买成熟方案,快速部署,直接上战场,一分冤枉钱都不花。
极致的ROI。
是LPU,不是GPU
据《华尔街日报》披露,英伟达正在开发一个新的推理计算系统,该系统将结合Groq设计的芯片,并在GTC大会上正式发布。
![图片[2]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011556956-1772471756-f3d09dc0be2f8d41fb3e770a29aff438-scaled.png)
与此同时,在OpenAI最新的融资文件中,这一计划已现端倪:
将扩大与英伟达的长期合作,包括使用3GW的dedicated inference capacity(专用推理算力),以及在Vera Rubin系统上提供2GW的训练算力。
如果老黄不跳票,那么这一“专用推理算力”极可能正是基于这颗新芯片。
如开头所说,一旦落地,这将是英伟达第一次在核心AI算力产品线上,大规模引入外部架构设计——
Groq的LPU。
选择直接引入外部架构,而非完全自研,与时间窗口密切相关。
近几个月来,OpenAI等头部客户已在积极寻找更高效率的推理替代方案,并与其他芯片公司展开合作谈判。
在推理需求迅速增长的背景下,英伟达需要更快给出针对性的解决方案。
而这次用LPU,而非GPU,原因就在于推理场景的适配上。
GPU通常将大量模型参数存放在外部HBM(高带宽内存)中,计算核心与内存之间需要频繁数据搬运。在训练阶段,通过大规模并行可以摊薄搬运成本。
![图片[3]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011559452-1772471759-a1ce0f8cd1f8e38b90f2ad1d5712c594.png)
但在推理尤其是decode阶段,批量变小、延迟敏感,系统瓶颈更多来自数据移动而非算力本身。
![图片[4]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011600632-1772471760-70562be917c9e475c3ebdf93d4349ddc.png)
Groq的LPU架构改变了这一逻辑——
它采用高密度片上SRAM,将数据“贴着算力跑”,极大缩短数据路径,从架构层面降低延迟与能耗,更适配低延迟推理场景,理论最高速度可比GPU快100倍。
![图片[5]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011603759-1772471763-8655151defb153d4f2563d50aed92030.png)
随着Agent应用逐渐普及,AI算力结构正在从“训练优先”向“推理优先”转移。
推理不再只是训练后的补充环节,而成为规模更大、频率更高的长期负载。
如果英伟达正式将LPU纳入核心产品线,这不仅是一款新芯片的发布,更是对算力重心转移的回应。
这也解释了为何英伟达在去年以约200亿美元完成对Groq核心技术与团队的整合,并引入创始人Jonathan Ross(谷歌TPU之父)等核心成员。
![图片[6]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011604554-1772471764-ba672c5a80de05ddde1d67945868a106.png)
可以说,推理市场正在重塑算力格局,而英伟达势必必须务必拿下。
英伟达推理芯片迎来威胁
过去一年,随着Agent应用爆发,算力需求结构正在发生明显变化:市场重心从训练转向推理。
训练仍然重要,但推理的调用频率更高、规模更大、持续时间更长,成本开始成为核心变量。
一些AI服务商开始将训练与推理分开部署——训练继续使用英伟达GPU,推理则转向更具性价比的专用芯片。
比如,上个月,OpenAI与Cerebras签署数十亿美元计算合作协议。
Cerebras主打推理优化芯片,其首席执行官Andrew Feldman公开表示,其芯片在特定场景下快于英伟达GPU。
Anthropic更多依赖Amazon Web Services与Google Cloud自研芯片支持模型运行,而非完全使用英伟达方案。
Meta也与AMD达成了大规模芯片订单合作,双方正在联合优化用于推理任务的GPU架构,以减少对英伟达的依赖。
![图片[7]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011606874-1772471766-df4e77b75eec15c9aaadccf477f97cc9.png)
在国产方面,模型公司同样开始转向本土算力方案。
在最新的消息中,DeepSeek甚至绕过英伟达,直接将DeepSeek V4的早期访问权限独家授予华为,并已在昇腾平台完成模型迁移。
另一个传闻里,寒武纪也出现在关联中。而不论哪一个传闻,都不利于英伟达。
而根据Bernstein Research预测,到2026年,华为在中国AI芯片市场份额可能达到50%,而英伟达份额或降至个位数。
与此同时,英伟达的竞争对手也在强化推理专用架构布局。
一方面是,早已在TPU布局的谷歌,以及在OpenAI最新融资计划中拿下计算生态合作权的Amazon,都在推动自研芯片在高频推理场景中的落地,其中亚马逊将重点启用自家的Trainium芯片支持Agent等应用。
![图片[8]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2026/03/20260303011610413-1772471770-328318ae155c157e4c01428e055d910a.png)
另一方面,国内诸如字节、阿里、百度等玩家也开始亲自下场制造芯片。
由此,趋势已经很清晰:推理成为主战场,而客户开始分散风险。
那么,为啥GPU不适合推理呢?
因为训练阶段追求的是“大规模并行”和总体吞吐量,而推理阶段则要追求“单token速度”和稳定响应。
具体来说,推理则分为两个阶段:pre-fill:处理用户输入;decode:逐token生成输出。
真正决定用户体验的,是第二步——低延迟生成。
此时系统瓶颈不在算力,而在频繁的存取与搬运。GPU架构虽强,但为并行设计;LPU则调整了存储与计算路径,更贴合推理负载。
正因如此,《华盛顿邮报》甚至评论道:这是AI浪潮以来,英伟达第一次在核心硬件层面面临架构挑战。
虽然英伟达仍占全球GPU市场超过90%,Hopper、Blackwell、即将登场的Rubin系列依旧是训练主力,但面对推理需求暴涨,英伟达也必须正面回应。
而这枚LPU芯片,就是他们的答案。
One more thing
除了这枚神秘芯片,老黄之前还官宣表示:
今年GTC大会上还将发布“世界前所未见”的新系列产品。
外界普遍猜测包括:Rubin系列新一代GPU;Feynman系列全新架构芯片。
或者更具体一点,跳票的消费级显卡???
参考链接
[1]https://www.wsj.com/tech/ai/nvidia-plans-new-chip-to-speed-ai-processing-shake-up-computing-market-51c9b86e?st=SdUxv4&reflink=desktopwebshare_permalink
[2]https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer?ncid=no-ncid
[3]https://berttempleton.substack.com/p/nvidias-blackwell-ultra-and-vera
— 欢迎AI产品从业者共建 —
![图片[9]-英伟达放弃GPU上LPU:新推理芯片被曝Groq即买即用,OpenAI第一个吃螃蟹-AI Express News](https://www.aiexpress.news/wp-content/uploads/2025/12/20251231074250850-1767138170-826df91ffeaf99ad2a291703b0269c87.jpeg)
一键关注 👇 点亮星标
<原文链接:https://mp.weixin.qq.com/s/gENKvqs8MEBPKE888pMPtA


















暂无评论内容