随着NVIDIA Blackwell新平台预计于2024年第四季出货,将推动液冷散热方案的渗透率明显增长,从2024年的10%左右至2025年将突破20%。随着全球ESG(环境、社会和公司治理)意识提升,加上CSP(云端服务业者)加速建设AI服务器,预期有助于带动散热方案从气冷转向液冷形式。
观察全球AI服务器市场,2024年主要AI方案供应商仍是NVIDIA(英伟达)。若在GPU AI服务器市场而言,NVIDIA则占据强大的优势,市占率接近90%,排名第二的AMD仅约8%。
TrendForce集邦咨询观察,今年NVIDIA Blackwell出货量规模较小,主要是因为供应链仍在进行产品最终测试验证等流程,如高速传输和散热设计等方面需要持续优化。新平台因能耗较高,尤其GB200整柜式方案需要更好的散热效率,有望促进液冷方案渗透率。然而,现有服务器生态系采用液冷的比例尚低,对于漏液或散热效能不佳的问题,ODM(原始设计制造商)仍须历经学习曲线后得出最佳解决方式。TrendForce集邦咨询预估2025年Blackwell平台在高端GPU的占比有望超过80%,这将促使电源供应厂商和散热行业等将竞相投入AI液冷市场,形成新的产业竞争格局。
大型CSP加快布建AI服务器,Google积极布局液冷方案
近年来,Google、AWS和Microsoft等大型美系云端业者皆加快布建AI服务器,主要采用搭载NVIDIA GPU及自研ASIC的方式。据TrendForce集邦咨询了解,NVIDIA GB200 NVL72机柜之热设计功耗(TDP)高达约140kW,需要采用液冷方案才能解决散热问题,预计将以水对气(Liquid-to-Air, L2A)方式为主流。HGX和MGX等其他架构的Blackwell服务器因密度较低,气冷散热为主要方案。
在云端业者自研AI ASIC方面,Google的TPU除了使用气冷方案,还积极布局液冷散热,是最积极采用液冷方案的美系厂商,BOYD和Cooler Master是其冷水板(Cold Plate)的主要供应商。中国大陆方面,Alibaba(阿里巴巴)最积极扩建液冷数据中心,其他云端服务商对自研的AI ASIC主要仍采用气冷散热方案。
TrendForce集邦咨询指出,云端服务商将指定GB200机柜液冷散热方案的关键零部件供应商,目前冷水板(Cold Plate)主要供应商为奇鋐和Cooler Master,分歧管(Manifold)为Cooler Master和双鸿,冷却分配系统(Coolant Distribution Unit, CDU)为Vertiv和台达电。至于防止漏水的关键零件快接头(Quick Disconnect, QD),目前采购仍以CPC、Parker Hannifin、Denfoss和Staubli等厂商为主,其他供应商如嘉泽和富世达等已进入验证阶段,预期2025年上半年,上述厂商有机会加入快接头供应商的行列,有助于逐步缓解当前供不应求的局面。