什么是DPU?
相对标准网卡,最初具备加速和卸载功能的网卡被称为智能网卡,当DPU(数据处理器)的概念出现后,智能网卡和DPU的概念则缺乏一个清晰的定义。以英伟达的DPU BlueField 系列和智能网卡CX系列为例,两者的区别主要是BlueField 系列增加了多核的ARM通用CPU 处理单元,用于满足控制平面的卸载,以此实现基础设施服务的全卸载和宿主机业务物理上的安全隔离。
无论是智能网卡还是DPU,都具有一样的核心功能,主要包含RDMA融合以太网(RoCE)、存储加速卸载如NVMe-oF、VPC网络卸载加速、存储网络IO虚拟化等。
因此,广义上的DPU即包含DPU,又包含智能网卡。
“九死一生”,国产DPU跑出来了吗?
2022年,DPU产业经历了一场高开低走的市场变化,伴随着AMD收购Pensando、微软收购Fungible等动作,DPU又“热”了一把,各路创业英雄不少。
与此同时,资本和行业界也卷起了一股对DPU创业的怀疑潮,有媒体甚至发出了“逃离DPU,因为DPU创业至少死掉九成”的言论。
站在两年后的今天,不能说看到DPU产业跑出来了,但至少逃出了“2022年就出现资金问题”的悲观预测,也并没有出现“九死一生”的DPU创业惨状。相反地,我们看到国内几家头部的DPU厂商已经流片成功,并开始商业落地。
云脉芯联:“智能网卡+AI网卡+DPU”三箭齐发,YSA-100芯片迎量产
就在近日,云脉芯联YSA-100网络互联芯片正式对外发布,同期发布的还有基于YSA-100这颗芯片底座研发的三款主力产品——metaScale系列智能网卡、metaConnect系列AI智能网卡和metaVisor系列AI DPU。
根据云脉芯联创始人/总裁吴吉朋的介绍,YSA-100是国内第一颗拥有400Gbps接入能力的支持RDMA网络互联的芯片,而在此基础上推出的三款产品分别面向不同的用户市场。
图片来源:云脉芯联
- metaScale系列智能网卡
metaScale是一款面向现代数据中心云场景、AI智算中心高性能网络和高性能存储领域打造的智能网卡,可提供优异的网络收发性能和成熟的平台兼容性,已适配如英特尔、AMD、海光、飞腾5000C、鲲鹏920和申威等CPU,天数智芯、沐曦MetaX、寒武纪、摩尔线程等GPU,并已成功适配新华三、浪潮、戴尔等主流服务器。
- metaConnect系列AI智能网卡
metaConnect是一款面向AI大模型业务,针对新型智算中心高性能网络需求打造的AI智能网卡产品,拥有单口400Gbps RDMA网络能力,可以有效加速GPU和AI芯片的计算效率,同时具备Lossy网络传输能力,为AI大模型算力集群网络提供高吞吐完全负载均衡的解决方案。
云脉芯联方面透露,基于云脉芯联自主创新的HyperDirect技术和多路径拥塞控制算法,metaConnect-400系列对比市场同类产品网络带宽利用率可整体提升20%。
- metaVisor系列AI DPU
metaVisor是一款面向大模型业务,针对智算中心基础设施网络管理运维监控能力提升需求打造的AI DPU产品,除了支持传统DPU的云计算租户VPC网络卸载和存储卸载,提供高性能RDMA网络能力外,还支持自主创新的HyperDirect技术,可有效加速GPU和AI芯片的计算效率。
此外,metaVisor系列AI DPU产品还能够和云脉芯联AI智能网卡产品协同构建端到端的高性能网络监控运维管理能力,为智算中心打造更有竞争力的产品解决方案。
关于用户侧表现和出货情况,目前基于云脉芯联YSA-100的产品已经正式量产出货,并受到了包括两家头部互联网大厂、头部服务器厂商、智算基础设施服务商在内的用户较为广泛的性能测试肯定,尤其是在RDMA方面的表现。
其中一位头部互联网厂商网络负责人表示:“在端网融合的大趋势下,网卡性能的提升,能够显著简化网络部署难度,提升整体网络性能,而国产网卡的发力,则能够很好的帮助国产厂商控制数据中心的总拥有成本(TCO)。在未来训推一体的大趋势下,需要智能网卡/DPU产品为网络基础设施提供更好的灵活性,能够更快速的在训练和推理应用之间,内部使用和对外售卖之间灵活转换。”
另外,本土集成商新华三和浪潮信息也带来了对metaConnect和metaScale的反馈。
新华三集团副总裁、人工智能研究院院长李飞介绍,在新华三4机32卡集群端网协同测试中,云脉芯联metaConnect-400S AI NIC产品在400G RDMA网络的集合通信库方面的表现已比肩国际一线厂商产品水平,双方联创的解决方案目前也已在客户侧部署落地。
浪潮信息网络研发部总经理李鹏翀则表示,云脉芯联metaScale-50、metaScale-200和metaScale-200S目前已顺利通过浪潮的供应商引入测试,未来将与浪潮产品一起服务客户,同时采购的云脉芯联YSA-100芯片,也将作为浪潮信息自研智能网卡的核心组件推向市场。
披荆斩棘的DPU, 正在面临怎样的变革?
DPU产业正在如火如荼的高速发展,那么到底是什么在支撑DPU行业披荆斩棘呢?笔者认为首先是人工智能行业的发展在持续推高市场侧的需求,即解决数据中心等基础设施的“降本增效”难题。具体来讲就是将“CPU处理效率低下、GPU处理不了”的数据传输工作负载卸载到专用DPU,以提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。
早些年,大家谈论的更多是CPU处理效率低下情况下DPU的用武之处,但近年来,这个趋势正在“被转变”。因为近年来,在数据中心中,GPU服务器的占比越来越高。根据Dell’Oro Group的数据显示,预计在3-5年后,即2027-2028年前后,GPU服务器的数量将超过CPU服务器的数量。届时,DPU将更多地被用于解决大型集群中海量GPU协同工作的问题。
从云脉芯联此次推出的产品,我们可以看到,metaConnect系列AI智能网卡和metaVisor系列AI DPU就是应这一趋势推出的产品。
GPU服务器会带来怎样的改变呢?前几年,当我们提到400G、800G觉得好像很遥远,因为大家常用的还是10G、25G、50G网络。但是,GPU并行计算一下子把网络推到了400G以上。
DPU是一个强IO型的芯片,相较通过间接手段来支持网络IO的CPU而言,DPU的IO带宽几乎可以与网络带宽等同,例如,网络支持25G,那么DPU就要支持25G。
所以,当网络带宽从主流 10G朝着25G、40G、100G、200G、400G,甚至800G发展时,原来基于“CPU/NP”和“FPGA+CPU”这两类硬件架构的DPU,除了在性能上难以为继以外,在成本和功耗上也存在较大挑战,而结合了ASIC和CPU双边优势的“ASIC+CPU”硬件架构将引领产品趋势。
写在最后
受到地缘政治等不确定因素的影响,国内必须形成闭环的产业链才能实现真正自主的发展,而在AI领域,当前大家把更多的关注放在GPU等核心芯片上,事实上真正国产化低的是高速网卡,所以这也是接下来AI产业要克服的重点。
好在,近年来越来越多的国产DPU厂商拿出了可商业化的产品,也在不断适配国内的CPU、GPU、路由等产品,希望在未来几年的迭代后,可以真正做到高性能产品的自主可控。