Supplyframe Supplyframe XQ Datasheet5

芯耀 Findchips bom2buy Siemens Xcelerator

关注我们

扫码关注
获取工程师必备礼包
板卡试用/精品课

设计助手

电子硬件助手

电子硬件助手

元器件查询

元器件查询

从GPU芯片到智算集群，英伟达不给中间商赚差价

03/20 10:20 作者：歪睿老哥

758

加入交流群

扫码加入
获取工程师必备礼包
参与热点资讯讨论

GTC25上，老黄拿出了最新也是最强的BLackWell Ultra GPU（B300），不过这个不是重点，毕竟去年就发布了B100和B200，这个就是小升级。

除了最强GPU之外，同时也推出了基于NV72互联的72卡的机柜。

这是机柜中，GPU的节点，每层机架上面两组GB300；每组GB300应该是两个GPU（B300），和一个CPU；所以一个机架应该是，4个GPU，2个CPU

最上面是GPU节点，右边盖子上应该是液冷的走线。

整板的设计图应该如上所示。

这CPU和GPU以及NVLINK连接的图，可以参照如下

可以看到，除了NVLINK之外，还为每个GPU配了一个800G的网卡，CX-8。

所以，72个GPU，需要18层。上面10层，下面8层，中间是NVLINK交换机。

中间则是NV-Switch的部分。14.4T的聚合带宽。

除了单个机柜，还有八个机柜的superpod，里面集成了288 Grace CPU，576 Blackwell Utlra GPU（GB300），300TB HBM3e内存，288个 800G的CX8；还有NVSwich，51.2T的网络交换机（SpectrumS）

最终达到的效果也比较惊人：11.5 ExaFLOPS FP4。

可以说，通过8个机柜就可以达到E级别超算能力（只在FP4）下。

也算一个不小本事。

在芯片部分，BLackWell Ultra也就是B300。

与现有的B200相比，提升了50%以上的内存和FP4计算能力。

整好是B100的两倍。

Blackwell Ultra B300还增加HBM3e堆栈的容量。

从192GB增加到288GB。

B300的实现有两种可能，一种是封装了4个DIE，就是两个B100（B100就是两个DIE）的就计算能力，第二种就是还是2个DIE，只不过每个DIE上更多的SM核。

就像从B100升级到B200。

具体哪一种，还要看后续，目前有没有更详细的手册。

Blackwell Ultra可以使用DeepSeek R1-671B模型进行了评估。

每秒发送多达1000个token。

(这个应该不是最大的，ISSCC上的groq的LPU也能达到上千的token)。

与之相比，H100秒只提供最多100个token。

因此，吞吐量增加了10倍，将处理较大查询的时间从1.5分钟缩短到10秒。

并且预告了下一代的rubin和在再下一代的Feynman

其实下一代不是一个芯片，而是一个芯片组。

比如rubin的GPU预计会换成HBM4，同时还有更大的计算能力。

NVlink SWITCH能力也提升了。（3600GB/s）

还有1.6T的网卡CX9,还可以用CPO全光的模块

和更大容量的交换，102.4T的交换机。

这一代是72个GPU的NVLINK组合的机柜。

下一代就是576个GPU的nvlink的机柜了。

scaleup 的能力从72卷到了576，这个超节点的能力也没有谁了。

单个芯片太难卷了。

现在就要卷集群。

从单个GPU到多个GPU的机架，再到多个机架的集群（POD）。

英伟达把系统集成商的活干了，并且管这玩意叫大GPU。

这种方案，直接对接最终客户，

提供交钥匙的方案（turn key）。

还配套发布Dynamo推理加速库和Mission Control运维平台，并通过AI托管服务（Instant AI Factory）降低运维门槛。

从硬件到生态的全栈闭环

有点超越传统芯片厂的范畴，形成软硬一体的生态系统：

这属于AI factory的范畴了。

这种芯片厂直接对接客户方的方式。

没有了系统集成厂商。

传统，业界采取是：

芯片商-系统商-客户三级的方式。

（例如intel芯片由DELL做成服务器卖给meta）

直接变成了芯片商（nvidia）-客户（meta）两级的方式。

一方面，在AI智算时代，这个系统集成的工作非常复杂了不少，我们前面就可以看到。

需要CPU,GPU,NVswitch,NIC,switch多系统配合，

另一方面，AI系统的调优和优化，很多原厂才能具备的能力

或者原厂的能力也不太够。

因为模型在变，各种技术栈和未知点太多了。

AI大神李沐就吐槽过，用过英伟达的智算集群，在训练时，出了很多问题，给他们解决了很多BUG。

这种能力，传统的系统集成厂商积累的就更少了。

智算集群这一模式直接冲击传统集成商的两大生存空间。

AMD收购系统集成商ZT system，也是要做AI智算集群，仿效英伟达提供交钥匙方案。

看来，不论老黄还是苏妈都看上这个市场，不想给中间商赚差价的机会啊。

我是歪睿老哥，一个喜欢科普的架构师，如果你觉得本文还不错，欢迎写出你的观点，点赞，在看，分享。

版权声明：与非网经原作者授权转载，版权属于原作者。文章观点仅代表作者本人，不代表与非网立场。文章及其配图仅供工程师学习之用，如有侵权或者其他问题，请联系本站作侵删。侵权投诉

人工客服
（售后/吐槽/合作/交友）

英伟达

NVIDIA（中国大陆译名：英伟达，港台译名：辉达），成立于1993年，是一家美国跨国科技公司，总部位于加利福尼亚州圣克拉拉市，由黄仁勋、克里斯·马拉科夫斯基（Chris Malachowsky）和柯蒂斯·普里姆（Curtis Priem）共同创立。公司早期专注于图形芯片设计业务，随着公司技术与业务发展，已成长为一家提供全栈计算的人工智能公司，致力于开发CPU、DPU、GPU和AI软件，为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。

NVIDIA（中国大陆译名：英伟达，港台译名：辉达），成立于1993年，是一家美国跨国科技公司，总部位于加利福尼亚州圣克拉拉市，由黄仁勋、克里斯·马拉科夫斯基（Chris Malachowsky）和柯蒂斯·普里姆（Curtis Priem）共同创立。公司早期专注于图形芯片设计业务，随着公司技术与业务发展，已成长为一家提供全栈计算的人工智能公司，致力于开发CPU、DPU、GPU和AI软件，为建筑工程、金融服务、科学研究、制造业、汽车等领域的计算解决方案提供支持。收起

点赞

收藏

评论

分享

加入交流群

举报

相关推荐

上海GPU独角兽，IPO前再融资
文章张通社
870
03/17 09:55
GPU芯片，巨变前夜
文章半导体产业纵横
3473
01/20 11:10
国产GPU，应用开花
文章半导体产业纵横
6307
2024/12/09
芯原与LVGL携手为可穿戴设备等应用提供先进的GPU加速
文章与非网编辑
1713
2024/11/29
AMD数据中心里程碑式进展！三大支柱驱动未来变革
文章张慧娟
3941
2024/10/11
国产GPU芯片难在哪里？
文章老虎说芯
4189
2024/06/12
最新国产GPU芯片 TOP 15
文章芯潮IC
1.2万
2024/05/18

登录即可解锁

海量技术文章
设计资源下载
产业链客户资源
写文章/发需求

创作中心去发布

相关文章

公众号：歪睿老哥；一个芯片设计行业老哥，忙时研发，闲时写作；聚焦芯片行业的那些事，唯武侠与芯片不可辜负！

TA的热门作品

热门内容