GTC25上,老黄拿出了最新也是最强的BLackWell Ultra GPU(B300),不过这个不是重点,毕竟去年就发布了B100和B200,这个就是小升级。
除了最强GPU之外,同时也推出了基于NV72互联的72卡的机柜。
这是机柜中,GPU的节点,每层机架上面两组GB300;每组GB300应该是两个GPU(B300),和一个CPU;所以一个机架应该是,4个GPU,2个CPU
最上面是GPU节点,右边盖子上应该是液冷的走线。
整板的设计图应该如上所示。
这CPU和GPU以及NVLINK连接的图,可以参照如下
可以看到,除了NVLINK之外,还为每个GPU配了一个800G的网卡,CX-8。
所以,72个GPU,需要18层。上面10层,下面8层,中间是NVLINK交换机。
中间则是NV-Switch的部分。14.4T的聚合带宽。
除了单个机柜,还有八个机柜的superpod,里面集成了288 Grace CPU,576 Blackwell Utlra GPU(GB300),300TB HBM3e内存,288个 800G的CX8;还有NVSwich,51.2T的网络交换机(SpectrumS)
最终达到的效果也比较惊人:11.5 ExaFLOPS FP4。
可以说,通过8个机柜就可以达到E级别超算能力(只在FP4)下。
也算一个不小本事。
在芯片部分,BLackWell Ultra也就是B300。
与现有的B200相比,提升了50%以上的内存和FP4计算能力。
整好是B100的两倍。
Blackwell Ultra B300还增加HBM3e堆栈的容量。
从192GB增加到288GB。
B300的实现有两种可能,一种是封装了4个DIE,就是两个B100(B100就是两个DIE)的就计算能力,第二种就是还是2个DIE,只不过每个DIE上更多的SM核。
就像从B100升级到B200。
具体哪一种,还要看后续,目前有没有更详细的手册。
Blackwell Ultra可以使用DeepSeek R1-671B模型进行了评估。
每秒发送多达1000个token。
(这个应该不是最大的,ISSCC上的groq的LPU也能达到上千的token)。
与之相比,H100秒只提供最多100个token。
因此,吞吐量增加了10倍,将处理较大查询的时间从1.5分钟缩短到10秒。
并且预告了下一代的rubin和在再下一代的Feynman
其实下一代不是一个芯片,而是一个芯片组。
比如rubin的GPU预计会换成HBM4,同时还有更大的计算能力。
NVlink SWITCH能力也提升了。(3600GB/s)
还有1.6T的网卡CX9,还可以用CPO全光的模块
和更大容量的交换,102.4T的交换机。
这一代是72个GPU的NVLINK组合的机柜。
下一代就是576个GPU的nvlink的机柜了。
scaleup 的能力从72卷到了576,这个超节点的能力也没有谁了。
单个芯片太难卷了。
现在就要卷集群。
从单个GPU到多个GPU的机架,再到多个机架的集群(POD)。
英伟达把系统集成商的活干了,并且管这玩意叫大GPU。
这种方案,直接对接最终客户,
提供交钥匙的方案(turn key)。
还配套发布Dynamo推理加速库和Mission Control运维平台,并通过AI托管服务(Instant AI Factory)降低运维门槛。
从硬件到生态的全栈闭环
有点超越传统芯片厂的范畴,形成软硬一体的生态系统:
这属于AI factory的范畴了。
这种芯片厂直接对接客户方的方式。
没有了系统集成厂商。
传统,业界采取是:
芯片商-系统商-客户三级的方式。
(例如intel芯片由DELL做成服务器卖给meta)
直接变成了芯片商(nvidia)-客户(meta)两级的方式。
一方面,在AI智算时代,这个系统集成的工作非常复杂了不少,我们前面就可以看到。
需要CPU,GPU,NVswitch,NIC,switch多系统配合,
另一方面,AI系统的调优和优化,很多原厂才能具备的能力
或者原厂的能力也不太够。
因为模型在变,各种技术栈和未知点太多了。
AI大神李沐就吐槽过,用过英伟达的智算集群,在训练时,出了很多问题,给他们解决了很多BUG。
这种能力,传统的系统集成厂商积累的就更少了。
智算集群这一模式直接冲击传统集成商的两大生存空间。
AMD收购系统集成商ZT system,也是要做AI智算集群,仿效英伟达提供交钥匙方案。
看来,不论老黄还是苏妈都看上这个市场,不想给中间商赚差价的机会啊。
我是歪睿老哥,一个喜欢科普的架构师,如果你觉得本文还不错,欢迎写出你的观点,点赞,在看,分享。