共计 11060 个字符,预计需要花费 28 分钟才能阅读完成。
【本文要点】
本文总结了黄仁勋在英伟达 GTC 大会上的演讲内容及技术发布要点:
- 算力需求暴增:黄仁勋表示,AI 推理需求推动算力增长 100 倍,英伟达致力于提供这些算力并合理利用。
- Blackwell Ultra GPU 发布:新款 Blackwell Ultra GPU 具备更大的内存和算力,专为 AI 推理和 Agent 应用设计,提升性能及带宽。
- DGX 超算工厂和机器架构:推出 DGX Super POD,整合 Blackwell Ultra GPU,以支持生成式 AI 和物理仿真。
- Nvidia Dynamo 软件:新发布 Dynamo 软件能显著提升推理效率,优化 GPU 使用,是推动 AI 推理的重要工具。
- 具身智能模型 Cosmos:推出 Cosmos 模型,支持动态视频生成,可用于具身智能应用,并发布人形机器人基础模型 Isaac GR00T N1。
- 未来展望:英伟达计划在未来推出的 Rubin 架构将进一步提升算力,并通过软件和硬件的结合保持在 AI 市场的竞争力,Yellow 认为他们有潜力成为 AI 时代的前沿企业。
整篇文章表明英伟达在 AI 算力与应用方面的最新动态及未来发展策略。
【正文】
黄仁勋在 GTC 大会演讲中提及,推理让算力需求暴增 100 倍
今天的 GTC 大会上,黄仁勋拿出了全新的 Blackwell Ultra GPU,以及在此基础上衍生的应用于推理、Agent 的服务器 SKU,也包括基于 Blackwell 架构的 RTX 全家桶,这一切都与算力有关,但接下来更重要的是,如何将源源不断算力,合理有效的消耗掉。
在黄仁勋眼里,通往 AGI 需要算力,具身智能机器人需要算力,构建 Omniverse 与世界模型更需要源源不断的算力,至于最终人类构建一个虚拟的“平行宇宙”,需要多少算力,英伟达给了一个答案——过去的 100 倍。
为了支撑自己的观点,黄仁勋在 GTC 现场晒了一组数据——2024 年美国前四云厂总计采购 130 万颗 Hopper 架构芯片,到了 2025 年,这一数据飙升至 360 万颗 Blackwell GPU。
以下是腾讯科技整理的英伟达 GTC 2025 大会的一些核心要点:
01 Blackwell 全家桶上线
1)年度“核弹”Blackwell Ultra 在挤牙膏
英伟达去年 GTC 发布 Blackwell 架构,并推出 GB200 芯片,今年的正式名称做了微调,不叫之前传言的 GB300,直接就称之为 Blakwell Ultra。
但从硬件来看,就是在去年基础上更换了新的 HBM 内存。一句话理解就是,Blackwell Ultra= Blackwell 大内存版本。
Blackwell Ultra 由两颗台积电 N4P(5nm)工艺,Blackwell 架构芯片 +Grace CPU 封装而来,并且搭配了更先进的 12 层堆叠的 HBM3e 内存,显存提升至为 288GB,和上一代一样支持第五代 NVLink,可实现 1.8TB/ s 的片间互联带宽。

基于存储的升级,Blackwell GPU 的 FP4 精度算力可以达到 15PetaFLOPS,基于 Attention Acceleration 机制的推理速度,比 Hopper 架构芯片提升 2.5 倍。
2)Blackwell Ultra NVL72:AI 推理专用机柜

和 GB200 NVL72 一样,英伟达今年也推出了类似的产品 Blackwell Ultra NVL72 机柜,一共由 18 个计算托盘构成,每个计算托盘包含 4 颗 Blackwell Ultra GPU+ 2 颗 Grace CPU,总计也就是 72 颗 Blackwell Ultra GPU+36 颗 Grace CPU,显存达到 20TB,总带宽 576TB/s,外加 9 个 NVLink 交换机托盘(18 颗 NVLink 交换机芯片),节点间 NVLink 带宽 130TB/s。
机柜内置 72 张 CX- 8 网卡,提供 14.4TB/ s 带宽,Quantum-X800 InfiniBand 和 Spectrum-X 800G 以太网卡则可以降低延迟和抖动,支持大规模 AI 集群。此外,机架还整合了 18 张用于增强多租户网络、安全性和数据加速 BlueField-3 DPU。
英伟达说这款产品是“为 AI 推理时代”专门定制,应用场景包括推理型 AI、Agent 以及物理 AI(用于机器人、智驾训练用的数据仿真合成),相比前一代产品 GB200 NVL72 的 AI 性能提升了 1.5 倍,而相比 Hopper 架构同定位的 DGX 机柜产品,可以为数据中心提供 50 倍增收的机会。
根据官方提供的信息,6710 亿参数 DeepSeek-R1 的推理,基于 H100 产品可实现每秒 100tokens,而采用 Blackwell Ultra NVL72 方案,可以达到每秒 1000 tokens。
换算成时间,同样的推理任务,H100 需要跑 1.5 分钟,而 Blackwell Ultra NVL72 15 秒即可跑完。

根据英伟达提供的信息,Blackwell NVL72 相关产品预计在 2025 年下半年上市,客户包括服务器厂商、云厂、算力租赁服务商几大类:
服务器厂商:Cisco/Dell/HPE/Lenovo/ 超微等 15 家制造商
云厂:AWS/Google Cloud/Azure/Oracle 云等主流平台
算力租赁服务商:CoreWeave/Lambda/Yotta 等
3)提前预告真“核弹”GPU Rubin 芯片
按照英伟达的路线图,GTC2025 的主场就是 Blackwell Ultra。
但是从观感上,对比 Blackwell 的硬件,应该有很多人会觉得英伟达也在挤牙膏,但没关系,黄仁勋再一次预告了 2026 年上市的基于 Rubin 架构的下一代 GPU 以及更强的机柜 Vera Rubin NVL144——72 颗 Vera CPU+144 颗 Rubin GPU,采用 288GB 显存的 HBM4 芯片,显存带宽 13TB/s,搭配第六代 NVLink 和 CX9 网卡。
这个产品有多强呢?FP4 精度的推理算力达到了 3.6ExaFLOPS,FP8 精度的训练算力也达到了 1.2ExaFlOPS,性能是 Blackwell Ultra NVL72 的 3.3 倍。
如果你觉得还不够,没关系,2027 年还有更强的 Rubin Ultra NVL576 机柜,FP4 精度的推理和 FP8 精度的训练算力分别是 15ExaFLOPS 和 5ExaFLOPS,14 倍于 Blackwell Ultra NVL72。

4)Blackwell Ultra 版 DGX Super POD“超算工厂”
对于那些现阶段 Blackwell Ultra NVL72 都不能满足需求,又不需要搭建超大规模 AI 集群的客户,英伟达的解决方案是基于 Blackwell Ultra、即插即用的 DGX Super POD AI 超算工厂。
作为一个即插即用的 AI 超算工厂,DGX Super POD 主要面向专为生成式 AI、AI Agent 和物理模拟等 AI 场景,覆盖从预训练、后训练到生产环境的全流程算力扩展需求,Equinix 作为首个服务商,提供液冷 / 风冷基础架构支持。

基于 Blackwell Ultra 定制的 DGX Super POD 分两个版本:
内置 DGX GB300(Grace CPU ×1+Blackwell Ultra GPU ×2)的 DGX SuperPOD,总计 288 颗 Grace CPU+576 颗 Blackwell Ultra GPU,提供 300TB 的快速内存,FP4 精度下算力为 11.5ExaFLOPS
内置 DGX B300 的 DGX SuperPOD,这个版本不含 Grace CPU 芯片,具备进一步的扩展空间,且采用的是风冷系统,主要应用场景为普通的企业级数据中心
5)DGX Spark 与 DGX Station
今年 1 月份,英伟达在 CES 上晒了一款售价 3000 美元的概念性的 AI PC 产品——Project DIGITS,现在它有了正式名称 DGX Spark。
产品参数方面,搭载 GB10 芯片,FP4 精度下算力可以达到 1PetaFlops,内置 128GB LPDDR5X 内存,CX- 7 网卡,4TB NVMe 存储,运行基于 Linux 定制的 DGX OS 操作系统,支持 Pytorch 等框架,且预装了英伟达提供的一些基础 AI 软件开发工具,可以运行 2000 亿参数模型。整机的尺寸和 Mac mini 的大小接近,两台 DGX Spark 互联,还可以运行超过 4000 亿参数的模型。
虽然我们说它是 AI PC,但本质上仍然属于超算范畴,所以被放在了 DGX 产品系列当中,而不是 RTX 这样的消费级产品里面。
不过也有人吐槽这款产品,FP4 的宣传性能可用性低,换算到 FP16 精度下只能跟 RTX 5070,甚至是 250 美元的 Arc B580 对标,因此性价比极低。

除了拥有正式名称的 DGX Spark,英伟达还推出了一款基于 Blackwell Ultra 的 AI 工作站,这个工作站内置一颗 Grace CPU 和一颗 Blackwell Ultra GPU,搭配 784GB 的统一内存、CX- 8 网卡,提供 20PetaFlops 的 AI 算力(官方未标记,理论上也是 FP4 精度)。
6)RTX 横扫 AI PC,还要挤进数据中心
前面介绍的都是基于 Grace CPU 和 Blackwell Ultra GPU 的产品 SKU,且都是企业级产品,考虑到很多人对 RTX 4090 这类产品在 AI 推理上的妙用,英伟达本次 GTC 也进一步强化了 Blackwell 和 RTX 系列的整合,推出了一大波内置 GDDR7 内存的 AI PC 相关 GPU,覆盖笔记本、桌面甚至是数据中心等场景。
桌面 GPU:,包括 RTX PRO 6000 Blackwell 工作站版、RTX PRO 6000 Blackwell Max- Q 工作站版、RTX PRO 5000 Blackwell、RTX PRO 4500 Blackwell 以及 RTX PRO 4000 Blackwell
笔记本 GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell 以及 RTX PRO 500 Blackwell
数据中心 GPU:NVIDIA RTX PRO 6000 Blackwell 服务器版

以上还只是部分基于 Blackwell Ultra 芯片针对不同场景定制的 SKU,小到工作站,大到数据中心集群,英伟达自己将其称之为“Blackwell Family”(Blackwell 家族),中文翻译过来“Blackwell 全家桶”再合适不过。
02 英伟达 Photonics:站在队友肩膀上的 CPO 系统光电共封模块(CPO)的概念,简单来说就是将交换机芯片和光学模块共同封装,可实现光信号转化为电信号,充分利用光信号的传输性能。
在此之前,业界就一直在讨论英伟达的 CPO 网络交换机产品,但一直迟迟未上线,黄仁勋在现场也给了解释——由于在数据中心中大量使用光纤连接,光学网络的功耗相当于计算资源的 10%,光连接的成本直接影响着计算节点的 Scale-Out 网络和 AI 性能密度提升。

今年的 GTC 英伟达一次性推出了 Quantum- X 硅光共封芯片、Spectrum- X 硅光共封芯片以及衍生出来的三款交换机产品:Quantum 3450-LD、Spectrum SN6810 和 Spectrum SN6800。
Quantum 3450-LD:144 个 800GB/ s 端口,背板带宽 115TB/s,液冷
Spectrum SN6810:128 个 800GB/ s 端口,背板带宽 102.4TB/s,液冷
Spectrum SN6800:512 个 800GB/ s 端口,背板带宽 409.6TB/s,液冷
上述产品统一归类到“NVIDIA Photonics”,英伟达说这是一个基于 CPO 合作伙伴生态共创研发的平台,例如其搭载的微环调制器(MRM)是基于台积电的光引擎优化而来,支持高功率、高能效激光调制,并且采用可拆卸光纤连接器。
比较有意思的是,根据之前业内的资料,台积电的微环调制器(MRM)是其与博通基于 3nm 工艺以及 CoWoS 等先进封装技术打造而来。
按照英伟达给的数据,整合光模块的 Photonics 交换机相比传统交换机,性能提升 3.5 倍,部署效率也可以提升 1.3 倍,以及 10 倍以上的扩展弹性。
03 模型效率 PK DeepSeek,软件生态发力 AI Agent

因为本次长达 2 个小时的 GTC 上,黄仁勋总共只讲大概半个小时软件和具身智能。因此很多细节都是通过官方文档进行补充的,而非完全来自现场。
1)Nvidia Dynamo,英伟达在推理领域构建的新 CUDA
Nvidia Dynamo 绝对是本场发布的软件王炸。
它是一个专为推理、训练和跨整个数据中心加速而构建的开源软件。Dynamo 的性能数据相当震撼:在现有 Hopper 架构上,Dynamo 可让标准 Llama 模型性能翻倍。而对于 DeepSeek 等专门的推理模型,NVIDIA Dynamo 的智能推理优化还能将每个 GPU 生成的 token 数量提升 30 倍以上。

Dynamo 的这些改进主要得益于分布化。它将 LLM 的不同计算阶段(理解用户查询和生成最佳响应)分配到不同 GPU,使每个阶段都能独立优化,提高吞吐量并加快响应速度。

比如在输入处理阶段,也就是预填充阶段,Dynamo 能够高效地分配 GPU 资源来处理用户输入。系统会利用多组 GPU 并行处理用户查询,希望 GPU 处理的更分散、更快。Dynamo 用 FP4 模式调用多个 GPU 同时并行“阅读”和“理解”用户的问题,其中一组 GPU 处理“第二次世界大战”的背景知识、另一组处理“起因“相关的历史资料、第三组处理“经过“的时间线和事件,这一阶段像是多个研究助理同时查阅大量资料。
而在生成输出 tokens,也就是解码阶段,则需要让 GPU 更专注和连贯。比起 GPU 数量,这个阶段更需要更大的带宽去吸取前一阶段的思考信息,因此也需要更多的缓存读取。Dynamo 优化了 GPU 间通信和资源分配,确保连贯且高效的响应生成。它一方面充分利用了 NVL72 架构的高带宽 NVLink 通信能力,最大化令牌生成效率。另一方面通过“Smart Router”将请求定向到已缓存相关 KV(键值)的 GPU 上,这可以避免重复计算,极大地提高了处理速度。由于避免了重复计算,一些 GPU 资源被释放出来 Dynamo 可以将这些空闲资源动态分配给新的传入请求。
这一套架构和 Kimi 的 Mooncake 架构非常类似,但在底层 infra 上英伟达做了更多支持。Mooncake 大概可以提升 5 倍左右,但 Dynamo 在推理上提升的更明显。
比如 Dynamo 的几项重要创新中,“GPU Planner”能够根据负载动态调整 GPU 分配,“低延迟通信库”优化了 GPU 间数据传输,而“内存管理器”则智能地将推理数据在不同成本级别的存储设备间移动,进一步降低运营成本。而智能路由器,LLM 感知型路由系统,将请求定向到最合适的 GPU,减少重复计算。这一系列能力都使得 GPU 的负载达到最佳化。
利用这一套软件推理系统能够高效扩展到大型 GPU 集群,最高可以使单个 AI 查询无缝扩展到多达 1000 个 GPU,以充分利用数据中心资源。
而对于 GPU 运营商来讲,这个改进使得每百万令牌成本显著下降,而产能大幅提升。同时单用户每秒获得更多 token,响应更快,用户体验改善。

与 CUDA 作为 GPU 编程的底层基础不同,Dynamo 是一个更高层次的系统,专注于大规模推理负载的智能分配和管理。它负责推理优化的分布式调度层,位于应用程序和底层计算基础设施之间。但就像 CUDA 十多年前彻底改变了 GPU 计算格局,Dynamo 也可能成功开创推理软硬件效率的新范式。
Dynamo 完全开源,支持从 PyTorch 到 Tensor RT 的所有主流框架。开源了也照样是护城河。和 CUDA 一样,它只对英伟达的 GPU 有效果,是 NVIDIA AI 推理软件堆栈的一部分。
用这个软件升级,NVIDIA 构筑了自己反击 Groq 等专用推理 AISC 芯片的城防。必须软硬搭配,才能主导推理基础设施。
2)Llama Nemotron 新模型秀高效,但还是打不过 DeepSeek
虽然在服务器利用方面,Dynamo 确实相当惊艳,但在训练模型方面英伟达还和真内行有点差距。
英伟达在这次 GTC 上用一款新模型 Llama Nemotron,主打高效、准确。它是由 Llama 系列模型衍生而来。经过英伟达特别微调,相较于 Llama 本体,这款模型经过算法修剪优化,更加轻量级,仅有 48B。它还具有了类似 o1 的推理能力。与 Claude 3.7 和 Grok 3 一样,Llama Nemotron 模型内置了推理能力开关,用户可选择是否开启。这个系列分为三档:入门级的 Nano、中端的 Super 和旗舰 Ultra,每一款都针对不同规模的企业需求。

说到高效,这一模型的微调数据集完全英伟达自己生成的合成数据组成,总数约 60B token。相比 DeepSeek V3 用 130 万 H100 小时完整训练,这个仅有 DeepSeek V3 1/15 参数量的模型只是微调就用了 36 万 H100 小时。训练效率比 DeepSeek 差一个等级。
在推理上效率上,Llama Nemotron Super 49B 模型确实比上一代模型表现要好得多,其 token 吞吐量能达到 Llama 3 70B 的 5 倍,在单个数据中心 GPU 下它可以每秒吞吐 3000 token 以上。但在 DeepSeek 开源日最后一天公布的数据中,每个 H800 节点在预填充期间平均吞吐量约为 73.7k tokens/s 输入(包括缓存命中)或在解码期间约为 14.8k tokens/s 输出。两者差距还是很明显的。
从性能上看,49B 的 Llama Nemotron Super 在各项指标中都超过了 70B 的经 DeepSeek R1 蒸馏过的 Llama 70B 模型。不过考虑到最近 Qwen QwQ 32B 模型之类的小参数高能模型频繁发布,Llama Nemotron Super 估计在这些能和 R1 本体掰手腕的模型里难以出彩。
最要命的是,这个模型,等于实锤了 DeepSeek 也许比英伟达更懂在训练过程中调教 GPU。
3)新模型只是英伟达 AI Agent 生态的前菜,NVIDA AIQ 才是正餐
英伟达为什么要开发一个推理模型呢?这主要是为了老黄看中的 AI 下一个爆点——AI Agent 做准备。自从 OpenAI、Claude 等大厂逐步通过 DeepReasearch、MCP 建立起了 Agent 的基础后,英伟达明显也认为 Agent 时代到来了。
NVIDA AIQ 项目就是英伟达的尝试。它直接提供了一个以 Llama Nemotron 推理模型为核心的规划者的 AI Agent 现成工作流。这一项目归属于英伟达的 Blueprint(蓝图)层级,它是指一套预配置的参考工作流、是一个个模版模板,帮助开发者更容易地整合 NVIDIA 的技术和库。而 AIQ 就是英伟达提供的 Agent 模版。

和 Manus 一样,它集成网络搜索引擎及其他专业 AI 代理等外部工具,这让这个 Agent 本身可以既能搜索,又能使用各种工具。通过 Llama Nemotron 推理模型的规划,反思和优化处理方案,去完成用户的任务。除此之外,它还支持多 Agent 的工作流架构搭建。

基于这套模版做的 servicenow 系统
比 Manus 更进一步的是,它具有一个复杂的针对企业文件的 RAG 系统。这一系统包括提取、嵌入、向量存储、重排到最终通过 LLM 处理的一系列步骤,能保证企业数据为 Agent 所用。
在此之上,英伟达还推出了 AI 数据平台,把 AI 推理模型接到企业数据的系统上,形成一个针对企业数据的 DeepReasearch。使得存储技术的重大演进,使得存储系统不再仅是数据的仓库,而是拥有主动推理和分析能力的智能平台。

另外,AIQ 非常强调可观察性和透明度机制。这对于安全和后续改进来讲非常重要。开发团队能够实时监控 Agent 的活动,并基于性能数据持续优化系统。
整体来讲 NVIDA AIQ 是个标准的 Agent 工作流模版,提供了各种 Agent 能力。算是进化到推理时代的,更傻瓜的 Dify 类 Agent 构筑软件。
04 人形机器人基础模型发布,英伟达要做具身生态全闭环
1)Cosmos,让具身智能理解世界如果说专注 Agent 还是投注现在,那英伟达在具身智能上的布局完全算得上是整合未来了。
模型、数据、算力这模型三要素英伟达都给安排齐了。
先从模型开始说,本次 GTC 放出了今年 1 月公布的具身智能基础模型 Cosmos 的升级版。
Cosmos 是一个能通过现在画面,去预测未来画面的模型。它可以从文本 / 图像输入数据,生成详细的视频,并通过将其的当前状态(图像 / 视频)与动作(提示 / 控制信号)相结合来预测场景的演变。因为这需要对世界的物理因果规律有理解,所以英伟达称 Cosmos 是世界基础模型(WFM)。

而对于具身智能而言,预测机器的行为会给外部世界带来什么影响是最核心的能力。只有这样,模型才能去根据预测规划行为,所以世界模型就成了具身智能的基础模型。有了这个基础的行为 / 时间 - 物理世界改变的世界预测模型,通过具体的如自动驾驶、机器人任务的数据集微调,这个模型就可以满足各种具有物理形态的具身智能的实际落地需要了。
整个模型包含三部分能力,第一部分 Cosmos Transfer 将结构化的视频文字输入转换为可控的真实感视频输出,凭空用文字产生大规模合成数据。这解决了当前具身智能最大的瓶颈——数据不足问题。而且这种生成是一种“可控”生成,这意味着用户可以指定特定参数(如天气条件、物体属性等),模型会相应调整生成结果,使数据生成过程更加可控和有针对性。整个流程还可以由 Ominiverse 和 Cosmos 结合。

第二部分 Cosmos Predict 能够从多模态输入生成虚拟世界状态,支持多帧生成和动作轨迹预测。这意味着,给定起始和结束状态,模型可以生成合理的中间过程。这是核心物理世界认知和构建能力。
第三部分是 Cosmos Reason,它是个开放且可完全定制的模型,具有时空感知能力,通过思维链推理理解视频数据并预测交互结果。这是规划行为和预测行为结果的提升能力。
有了这三部分能力逐步叠加,Cosmos 就可以做到从现实图像 token+ 文字命令提示 token 输入到机器动作 token 输出的完整行为链路。
这一基础模型应该确实效果不俗。推出仅两个月,1X、Agility Robotics、Figure AI 这三家头部公司都开始用起来了。大语言模型没领先,但具身智能英伟达确实在第一梯队里。
2)Isaac GR00T N1,世界第一个人形机器人基础模型有了 Cosmos,英伟达自然而然用这套框架微调训练了专用于人型机器人的基础模型 Isaac GR00T N1。

它采用双系统架构,有快速反应的“系统 1“和深度推理的“系统 2“。它的全面微调,使得其能处理抓取、移动、双臂操作等通用任务。而且可以根据具体机器人进行完全定制,机器人开发者可用真实或合成数据进行后训练。这使得这一模型实际上可以被部署在各种各样形状各异的机器人中。
比如说英伟达与 Google DeepMind 和迪士尼合作开发 Newton 物理引擎,就用了 Isaac GR00T N1 作为底座驱动了一个非常不常见的小迪士尼 BDX 机器人。可见其通用性之强。Newton 作为物理引擎非常细腻,因此足够建立物理奖励系统,以在虚拟环境中训练具身智能。

4)数据生成,双管齐下
英伟达结合 NVIDIA Omniverse 和上面提到的 NVIDIA Cosmos Transfer 世界基础模型,做出了 Isaac GR00T Blueprint。它能从少量人类演示中生成大量合成动作数据,用于机器人操作训练。NVIDIA 使用 Blueprint 的首批组件,在仅 11 小时内生成了 78 万个合成轨迹,相当于 6,500 小时(约 9 个月)的人类演示数据。Isaac GR00T N1 的相当一部分数据就来自于此,这些数据使得 GR00T N1 的性能比仅使用真实数据提高了 40%。

针对每个模型,靠着 Omniverse 这套纯虚拟系统,以及 Cosmos Transfer 这套真实世界图像生成系统,英伟达都能提供大量的高质量数据。这模型的第二个方面,英伟达也覆盖了。
3)三位一体算力体系,打造从训练到端的机器人计算帝国
从去年开始,老黄就在 GTC 上强调一个「三台计算机」的概念:一台是 DGX,就是大型 GPU 的服务器,它用来训练 AI,包括具身智能。另一台 AGX,是 NVIDIA 为边缘计算和自主系统设计的嵌入式计算平台,它用来具体在端侧部署 AI,比如作为自动驾驶或机器人的核心芯片。第三台就是数据生成计算机 Omniverse+Cosmos。

这套体系在本次 GTC 中又被老黄重提,且特别提到靠着这套算力系统,能诞生十亿级的机器人。从训练到部署,算力都用英伟达。这一部分也闭环了。
05 结语
如果单纯对比上一代 Blackwell 芯片,Blackwell Ultra 在硬件上确实匹配不上之前的“核弹”、“王炸”这些形容词,甚至有些挤牙膏的味道。
但如果从路线图规划的角度来看,这些又都在黄仁勋的布局之中,明年、后年的 Rubin 架构,从芯片工艺,到晶体管,再到机架的集成度,GPU 互联和机柜互联等规格都会有大幅度提升,用中国人习惯说的叫“好戏还在后头”。
对比硬件层面上的画饼充饥,这两年英伟达在软件层面上可以说是狂飙突进。
纵观英伟达的整个软件生态,Meno、Nim、Blueprint 三个层级的服务把模型优化、模型封装到应用构建的全栈解决方案都包括进去了。云服务公司的生态位英伟达 AI 全部重合。加上这次新增的 Agent,AI infra 这块饼,英伟达是除了基础模型这一块之外,所有部分都要吃进去。
软件这部分,老黄的胃口,和英伟达的股价一样大。
而在机器人市场,英伟达的野心更大。模型,数据,算力三要素都抓在手里。没赶上基础语言模型的头把交椅,基础具身智能补齐。影影绰绰,一个具身智能版的垄断巨头已经在地平线上露头了。
这里面,每个环节,每个产品都对应着一个潜在的千亿级市场。早年孤注一掷的好运赌王黄仁勋,靠着 GPU 垄断得来的钱,开始做一场更大的赌局。
如果这场赌局里,软件或者机器人市场任意一方面通吃,那英伟达就是 AI 时代的谷歌,食物链上的顶级垄断者。
不过看看英伟达 GPU 的利润率,我们还是期待这样的未来别来了。
还好,这对于老黄这辈子来讲,也是他从没操盘过的大赌局。胜负难料。