• 正文
  • 相关推荐
申请入驻 产业图谱

从GPU芯片到智算集群,英伟达不给中间商赚差价

03/20 10:20
226
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

GTC25上,老黄拿出了最新也是最强的BLackWell Ultra GPU(B300),不过这个不是重点,毕竟去年就发布了B100和B200,这个就是小升级。

除了最强GPU之外,同时也推出了基于NV72互联的72卡的机柜。

这是机柜中,GPU的节点,每层机架上面两组GB300;每组GB300应该是两个GPU(B300),和一个CPU;所以一个机架应该是,4个GPU,2个CPU

最上面是GPU节点,右边盖子上应该是液冷的走线。

整板的设计图应该如上所示。

这CPU和GPU以及NVLINK连接的图,可以参照如下

可以看到,除了NVLINK之外,还为每个GPU配了一个800G的网卡,CX-8。

所以,72个GPU,需要18层。上面10层,下面8层,中间是NVLINK交换机

中间则是NV-Switch的部分。14.4T的聚合带宽。

除了单个机柜,还有八个机柜的superpod,里面集成了288 Grace CPU,576 Blackwell Utlra GPU(GB300),300TB HBM3e内存,288个 800G的CX8;还有NVSwich,51.2T的网络交换机(SpectrumS)

最终达到的效果也比较惊人:11.5 ExaFLOPS FP4。

可以说,通过8个机柜就可以达到E级别超算能力(只在FP4)下。

也算一个不小本事。

芯片部分,BLackWell Ultra也就是B300。

与现有的B200相比,提升了50%以上的内存和FP4计算能力。

整好是B100的两倍。

Blackwell Ultra B300还增加HBM3e堆栈的容量。

从192GB增加到288GB。

B300的实现有两种可能,一种是封装了4个DIE,就是两个B100(B100就是两个DIE)的就计算能力,第二种就是还是2个DIE,只不过每个DIE上更多的SM核。

就像从B100升级到B200。

具体哪一种,还要看后续,目前有没有更详细的手册。

Blackwell Ultra可以使用DeepSeek R1-671B模型进行了评估。

每秒发送多达1000个token。

(这个应该不是最大的,ISSCC上的groq的LPU也能达到上千的token)。

与之相比,H100秒只提供最多100个token。

因此,吞吐量增加了10倍,将处理较大查询的时间从1.5分钟缩短到10秒。

并且预告了下一代的rubin和在再下一代的Feynman

其实下一代不是一个芯片,而是一个芯片组

比如rubin的GPU预计会换成HBM4,同时还有更大的计算能力。

NVlink SWITCH能力也提升了。(3600GB/s)

还有1.6T的网卡CX9,还可以用CPO全光的模块

和更大容量的交换,102.4T的交换机。

这一代是72个GPU的NVLINK组合的机柜。

下一代就是576个GPU的nvlink的机柜了。

scaleup 的能力从72卷到了576,这个超节点的能力也没有谁了。

单个芯片太难卷了。

现在就要卷集群。

从单个GPU到多个GPU的机架,再到多个机架的集群(POD)。

英伟达把系统集成商的活干了,并且管这玩意叫大GPU。

这种方案,直接对接最终客户,

提供交钥匙的方案(turn key)。

还配套发布Dynamo推理加速库和Mission Control运维平台,并通过AI托管服务(Instant AI Factory)降低运维门槛。

硬件到生态的全栈闭环

有点超越传统芯片厂的范畴,形成软硬一体的生态系统:

这属于AI factory的范畴了。

这种芯片厂直接对接客户方的方式。

没有了系统集成厂商。

传统,业界采取是:

芯片商-系统商-客户三级的方式。

(例如intel芯片由DELL做成服务器卖给meta)

直接变成了芯片商(nvidia)-客户(meta)两级的方式。

一方面,在AI智算时代,这个系统集成的工作非常复杂了不少,我们前面就可以看到。

需要CPU,GPU,NVswitch,NIC,switch多系统配合,

另一方面,AI系统的调优和优化,很多原厂才能具备的能力

或者原厂的能力也不太够。

因为模型在变,各种技术栈和未知点太多了。

AI大神李沐就吐槽过,用过英伟达的智算集群,在训练时,出了很多问题,给他们解决了很多BUG。

这种能力,传统的系统集成厂商积累的就更少了。

智算集群这一模式直接冲击传统集成商的两大生存空间。

AMD收购系统集成商ZT system,也是要做AI智算集群,仿效英伟达提供交钥匙方案。

看来,不论老黄还是苏妈都看上这个市场,不想给中间商赚差价的机会啊。

我是歪睿老哥,一个喜欢科普的架构师,如果你觉得本文还不错,欢迎写出你的观点,点赞,在看,分享。

英伟达

英伟达

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。

NVIDIA(中国大陆译名:英伟达,港台译名:辉达),成立于1993年,是一家美国跨国科技公司,总部位于加利福尼亚州圣克拉拉市,由黄仁勋、克里斯·马拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同创立。公司早期专注于图形芯片设计业务,随着公司技术与业务发展,已成长为一家提供全栈计算的人工智能公司,致力于开发CPU、DPU、GPU和AI软件,为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。收起

查看更多
点赞
收藏
评论
分享
加入交流群
举报

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录