近期市场关注NVIDIA (英伟达)GB200整柜式方案(Rack)各项供应进度,由于GB200 Rack在高速互通界面、热设计功耗(TDP)等设计规格皆明显高于市场主流,供应链业者需要更多时间持续调校、优化,预期最快将于2025年第二季后才有机会放量。
NVIDIA GB Rack方案(包括GB200、GB300等)因导入技术层次更复杂、高成本等特性,主要客户将为大型云服务提供商(CSP),以及Tier-2数据中心、国家主权云和学术研究单位等HPC/AI应用项目。在NVIDIA大力推动下,预期GB200 NVL72机柜将于2025年成为主要的采用方案,占比可望接近80%。
TrendForce集邦咨询表示,为提升AI/HPC Server系统整体运算效能,NVIDIA开发NVLink以提供GPU芯片之间的高速互连技术,如GB200采用第五代NVLink,总频宽大幅优于目前市场主流PCIe 5.0。此外,2024年主导市场的HGX AI Server每柜TDP动辄达60 KW至80 KW,而GB200 NVL72每柜则达到140 KW,TDP再度提升一倍,为此业者尝试扩大采用液冷散热解决方案。
由于GB200 Rack系统采用更高设计规格,市场频传可能因部分零部件未达要求,有延迟出货风险。根据TrendForce集邦咨询调查,目前Blackwell GPU芯片出货情形大致如原先预期,2024年第四季仅少量出货,2025年第一季后逐季放量。在AI Server系统方面,因尚待供应链各环节持续调整,至今年底的出货量恐低于业者预期,据此,2025年GB200整机柜的出货高峰将略有延后。
传统气冷散热解决方案已无法应对GB200 NVL72的TDP值,液冷技术成为其必需。随着GB200 Rack方案于2024年底开始小量出货,相关业者也加大液冷散热零部件研发能量,如冷却分配系统(CDU)供应商正透过扩大机柜尺寸和采用更高效的冷却板(Cold Plate)提高散热效能。TrendForce集邦咨询表示,目前Sidecar CDU的散热能力主要集中于60 KW至80 KW,未来可望达成双倍甚至逾三倍的散热表现。至于更高效的液对液(L2L)型in-row CDU方案,散热能力已能超过1.3MW,未来也将继续提升,以应对算力增长需求。