如日中天的英伟达，下一个目标是抢走云厂商的生意？

作者｜薛良Neil 邮箱｜neilshen@pingwest.com

谁有英伟达GPU，谁就是云公司

关于英伟达总有新的消息让你惊讶。

最近的一则来自美国的一家云初创公司 CoreWeave 。

这家公司宣布融资23亿美金，而更让人震惊的是这笔钱的抵押物是其拥有的GPU。在大模型热潮下，GPU俨然成为一种硬通货，而CoreWeave之所以能有如此多的英伟达稀缺物品，是因为它过去的身份——北美最大的以太坊矿工。

那时它有超过五万台GPU用来挖矿，在面对挖矿的不可持续性后，CoreWeave把目光转向AI等需要并行计算的领域，并在 ChatGPT 爆红之前就采购了大量英伟达芯片——那时芯片的产能还足够充分。

由此，CoreWeave自称是世界上唯一一个可以大规模提供H100算力的公司，也摇身一变成为了一家“云厂商”。

是的，它的GPU供给超越了所有云服务巨头，包括谷歌云、亚马逊云和微软的Azure。

这听上去有些奇特，即使是不谈GPU数量瓶颈，构建数据中心还需要巨量的成本，精巧的空间、能源和散热设计以及十分复杂的软硬件协同，一般来说，能满足这些条件的只能是巨头，而不是刚进行了B轮融资（4.21亿美元）的初创公司。

CoreWeave 能做到这一点，源于一种对数据中心截然不同的理解。

传统的数据中心由CPU构成，它们侧重于通用计算的能力，主要由最开始是英特尔，后来是AMD的芯片所垄断。

但全新的用于加速计算的数据中心则更强调并行计算，这就意味着它需要有更大的内存、带宽以及把所有的加速计算单元密切连接起来的能力，英伟达创始人和CEO黄仁勋称这个过程为“数据中心现代化”，在他看来这是一个将持续10年的周期。

这个新周期的开始预示着整个数据中心的建构方式，软硬件协同乃至电源和散热结构都需要重新设计。这让所有的云服务提供商几乎重回起跑线——针对 CPU 设计的上一代的数据中心方案几乎完全无法照搬。比如英伟达连接庞大GPU集群所用到的 Infinite Band 技术需要超过500英里的电缆，这在传统的数据中心设计中根本不存在。

CoreWeave举了另一个例子，相同场地大小，GPU 集群所需要的电力是传统数据中心的 4 倍，因此新数据中心的电力系统和散热系统都需要完全重新设计，这甚至还不算软硬件协同的成本。

抢占先机的CoreWeave由此不仅能提供庞大的H100算力，并且在比其它的云服务快几十倍的同时费用还低80%，能做到这些，我们可以将其归功于它很早就精准践行了黄仁勋有关数据中心的愿景——数据中心正在向加速计算方向转化，而紧缺的算力则通过云供应。

就这样，一家虚拟币挖矿公司就变成了一家当红的云计算公司，只因为它是最忠诚的英伟达门徒。

英伟达云是个什么云

谁有英伟达的GPU谁就是最红的云厂商，那么谁有最多的英伟达GPU？显然是它自己。

于是在扶持类似的云初创企业的同时，英伟达也在建设自己的云。

英伟达亲自下场做云的优势有很多，最明显的是它不受到GPU供需关系的困扰。马斯克曾在公开场合说，获得GPU比获得毒品要难多了，而CoreWeave之所以能提供超大规模的 H100 算力，据悉也和英伟达的充分供应有关——英伟达在几个月前参与了CoreWeave的 B 轮融资。

但显然，仅仅投一些初创公司还不够，生成式 AI 对算力的巨大需求最终让英伟达自己下场。在今年3月的GTC大会上，英伟达推出了自己的云服务DGX Cloud ，它已在年中正式上线。

从名字就可以看出，DGX Cloud 直接利用了英伟达DGX超级计算机的能力，云的每个实例均配备8个H100或A100 GPU以及640GB内存。

DGX Cloud 采用了一种低延迟结构，让庞大的工作流可以在集群之间扩展，于多个计算节点上并行分配。举个例子来说，最先宣布与DGX Cloud合作的甲骨文，它在OCI Supercluster上每个集群可以部署超过3万个A100 GPU，由此大模型可以在云上进行训练。用户在任何地方都能自由访问属于自己的 AI 超级计算机（英伟达表示算力的分配是独享排他的），打交道的只有前台界面，除了开发过程本身不用再去担心任何和硬件基础设施有关的问题。

这项服务采用月租形式，金额高达近 4 万美元。当然，相比直接买一台 DGX 服务器 20 万美元的价格来说还是便宜了许多，但不少人都指出，微软的 Azure 同样 8 个 A100GPU 的收费只有不到 2 万美元，几乎是前者的一半。

为什么这么贵？因为英伟达的云服务和别家不同，它不仅包括算力，还包括一整套 AI 解决方案。

名为Base Command Platform（基础命令平台）和 AI Enterprise 的两项服务被集成到了DGX Cloud里。前者是一个管理与监控软件，不仅可以用来记录云端算力的训练负载，提供跨云端和本地算力的整合，还能让用户直接从浏览器访问 DGX Cloud。后者则是英伟达 AI 平台中的软件层，高达数千个软件包提供了各种预训练模型、AI 框架和加速库，从而简化端到端的 AI 开发和部署成本。除此之外，DGX Cloud 上还提供名为 AI Foundations 的模型铸造服务，让企业用户可以使用自己的专有数据定制属于自己的垂直大模型。

这套软硬件组合起来的完整解决方案让 DGX Cloud 训练速度相比传统的云计算提高了两到三倍，这成为了DGX Cloud与传统云服务最大的不同，它很好的综合了英伟达两方面的强项：AI 生态和算力。对于英伟达来说，“软件即服务”这句话似乎应该改成“软硬件一体即服务”，DGX Cloud 集中代表了一个硬件厂商向上垂直整合的能力天花板。

黄仁勋的野心和现实

但这并不意味着英伟达就彻底掀了传统云厂商的桌子。它的这项服务是通过传统云厂商来提供的。DGX Cloud 最开始被宣布推出在甲骨文云上，随后微软和谷歌跟进，而英伟达与这些云厂商合作的方式显得颇为有趣：英伟达先把 GPU硬件卖给这些云合作伙伴，然后再租用这些硬件以便运行DGX Cloud。

有人戏称这叫两边钱一起赚，都不耽误。

实际上，黄仁勋解释过这种模式：“我们从让客户使用我们的计算平台中受益，而客户通过将我们（的计算平台）置于他们（云厂商）的云中而受益。”

如果只听黄仁勋说，这就是个皆大欢喜的双赢结局，然而这只是他一贯的叙事而已。英伟达已经陷入与自己客户的竞争中，并且心知肚明。

DGX Cloud 进展告诉我们，黄仁勋并不打算仅仅把它布置于传统云厂商上。在八月的 SIGGRAPH 2023上，英伟达先是宣布了与 Hugging Face 的合作，接着发布了名为AI Workbench的服务。它们都可以让用户便捷创建、测试和定制预训大模型，其背后的算力支持自然都包括了 DGX Cloud。

这显然会冲击英伟达和云厂商的关系：最主要的云服务商，包括谷歌、亚马逊和微软，它们同样也是英伟达的大客户，英伟达推广自有云服务势必会抢夺它们的市场份额。特别是我们在第一部分已经谈到，作为数据中心和云服务巨头的它们在构建下一代数据中心的问题上本来就不具备多少优势，如果再考虑到英伟达芯片产能“卡脖子”的问题，英伟达的自有云服务威胁不可谓不小。

黄仁勋不会不知道这一点，因此他对DGX Cloud 的态度就显得颇值得玩味了，比如他公开表示，一个恰当的云服务组合比例应该是10%英伟达DGX加上90%的公有云。换而言之，DGX Cloud 在黄仁勋的定位里并不是传统云厂商的对手与威胁，而是合作伙伴。

在 Q1 季度财报公布后的分析师电话会上黄仁勋谈的更多的都是这种合作的好处，“一个巨大的双赢”，黄仁勋如此形容。在他的理解里，DGX Cloud 是一个纯粹的英伟达堆栈（pure Nvidia stack），把人工智能开发、大型数据库和高速低延迟网络组合在一起，成为一种便捷的AI 基础设施从而打开全新的、巨大的市场——这个市场的参与者包括了英伟达和传统云厂商，大家将共同受益于生成式 AI 的爆发。

极力避谈冲突，其实是因为，DGX Cloud 恐怕很长时间内都只能维持一个较小的体量。

第一个原因当然是算力的瓶颈。“订单多到不可思议”是黄仁勋形容数据中心业务量时的描述，英伟达的核心要务当然是开发并保证生产尽可能多的符合市场需求的先进芯片，否则云服务的规模是无法扩大的。

尽管台积电在马不停蹄的生产，但值得注意的是算力缺口不是变小而是更大了，因为一旦大模型落地和商业化（比如像ChatGPT那样），其推理成本将随着用户规模的提升指数级升高，长远来看会比训练模型的算力需求大得多（有人给出的倍率是 100）。

此外也是考虑到英伟达和传统云厂商合作关系的复杂性。DGX Cloud如果作为一种纯粹的竞品出现，或许会占领可观的市场份额，但势必进一步加速云厂商摆脱对英伟达的依赖——它们本来就已经为了少交点“英伟达税”而不约而同地自研芯片了。

从另一个角度讲，全力扩大 DGX Cloud 规模可能也不符合英伟达的最佳利益。从芯片到游戏显卡再到服务器和数据中心，英伟达绝少自己制造硬件产品，它更喜欢和OEM 厂商合作——以至于许多时候你要采购英伟达芯片都还是得经过 OEM 厂商。这让英伟达很好的控制成本，维持利润率。

今天英伟达和云厂商之间似乎维持了一种平衡，但平衡就是用来打破的，尤其当一方是英伟达的时候，毕竟眼下才是黄仁勋所谓“下一代数据中心十年”更新周期的第一年。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATSAMA5D31A-CU	1	Atmel Corporation	RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324	ECAD模型下载ECAD模型	$22.61	查看
STM32F767ZIT6	1	STMicroelectronics	High-performance and DSP with FPU, Arm Cortex-M7 MCU with 2 Mbytes of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM, TFT, JPEG codec, DFSDM	ECAD模型下载ECAD模型	$25.18	查看
AT89C51ED2-RDTUM	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 64VQFP	ECAD模型下载ECAD模型	$18.07	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATSAMA5D31A-CU

Atmel Corporation

RISC Microprocessor, 32-Bit, 536MHz, CMOS, PBGA324, 15 X 15 MM, 1.40 MM HEIGHT, 0.80 MM PITCH, GREEN, MO-275KAAE-1, LFBGA-324

$22.61

查看

STM32F767ZIT6

STMicroelectronics

High-performance and DSP with FPU, Arm Cortex-M7 MCU with 2 Mbytes of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM, TFT, JPEG codec, DFSDM