加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 什么是DPU?
    • “九死一生”,国产DPU跑出来了吗?
    • 云脉芯联:“智能网卡+AI网卡+DPU”三箭齐发,YSA-100芯片迎量产
    • 披荆斩棘的DPU, 正在面临怎样的变革?
    • 写在最后
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

国产DPU跑出来了吗?

3小时前
1084
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

什么是DPU?

相对标准网卡,最初具备加速和卸载功能的网卡被称为智能网卡,当DPU(数据处理器)的概念出现后,智能网卡和DPU的概念则缺乏一个清晰的定义。以英伟达的DPU BlueField 系列和智能网卡CX系列为例,两者的区别主要是BlueField 系列增加了多核的ARM通用CPU 处理单元,用于满足控制平面的卸载,以此实现基础设施服务的全卸载和宿主机业务物理上的安全隔离。

无论是智能网卡还是DPU,都具有一样的核心功能,主要包含RDMA融合以太网(RoCE)、存储加速卸载如NVMe-oF、VPC网络卸载加速、存储网络IO虚拟化等。

因此,广义上的DPU即包含DPU,又包含智能网卡。

“九死一生”,国产DPU跑出来了吗?

2022年,DPU产业经历了一场高开低走的市场变化,伴随着AMD收购Pensando、微软收购Fungible等动作,DPU又“热”了一把,各路创业英雄不少。

与此同时,资本和行业界也卷起了一股对DPU创业的怀疑潮,有媒体甚至发出了“逃离DPU,因为DPU创业至少死掉九成”的言论。

站在两年后的今天,不能说看到DPU产业跑出来了,但至少逃出了“2022年就出现资金问题”的悲观预测,也并没有出现“九死一生”的DPU创业惨状。相反地,我们看到国内几家头部的DPU厂商已经流片成功,并开始商业落地。

云脉芯联:“智能网卡+AI网卡+DPU”三箭齐发,YSA-100芯片迎量产

就在近日,云脉芯联YSA-100网络互联芯片正式对外发布,同期发布的还有基于YSA-100这颗芯片底座研发的三款主力产品——metaScale系列智能网卡、metaConnect系列AI智能网卡和metaVisor系列AI DPU。

根据云脉芯联创始人/总裁吴吉朋的介绍,YSA-100是国内第一颗拥有400Gbps接入能力的支持RDMA网络互联的芯片,而在此基础上推出的三款产品分别面向不同的用户市场。

图片来源:云脉芯联

  • metaScale系列智能网卡

metaScale是一款面向现代数据中心云场景、AI智算中心高性能网络和高性能存储领域打造的智能网卡,可提供优异的网络收发性能和成熟的平台兼容性,已适配如英特尔、AMD、海光、飞腾5000C、鲲鹏920和申威等CPU,天数智芯、沐曦MetaX、寒武纪、摩尔线程等GPU,并已成功适配新华三、浪潮、戴尔等主流服务器

  • metaConnect系列AI智能网卡

metaConnect是一款面向AI大模型业务,针对新型智算中心高性能网络需求打造的AI智能网卡产品,拥有单口400Gbps RDMA网络能力,可以有效加速GPU和AI芯片的计算效率,同时具备Lossy网络传输能力,为AI大模型算力集群网络提供高吞吐完全负载均衡的解决方案。

云脉芯联方面透露,基于云脉芯联自主创新的HyperDirect技术和多路径拥塞控制算法,metaConnect-400系列对比市场同类产品网络带宽利用率可整体提升20%。

  • metaVisor系列AI DPU

metaVisor是一款面向大模型业务,针对智算中心基础设施网络管理运维监控能力提升需求打造的AI DPU产品,除了支持传统DPU的云计算租户VPC网络卸载和存储卸载,提供高性能RDMA网络能力外,还支持自主创新的HyperDirect技术,可有效加速GPU和AI芯片的计算效率。

此外,metaVisor系列AI DPU产品还能够和云脉芯联AI智能网卡产品协同构建端到端的高性能网络监控运维管理能力,为智算中心打造更有竞争力的产品解决方案。

关于用户侧表现和出货情况,目前基于云脉芯联YSA-100的产品已经正式量产出货,并受到了包括两家头部互联网大厂、头部服务器厂商、智算基础设施服务商在内的用户较为广泛的性能测试肯定,尤其是在RDMA方面的表现。

其中一位头部互联网厂商网络负责人表示:“在端网融合的大趋势下,网卡性能的提升,能够显著简化网络部署难度,提升整体网络性能,而国产网卡的发力,则能够很好的帮助国产厂商控制数据中心的总拥有成本(TCO)。在未来训推一体的大趋势下,需要智能网卡/DPU产品为网络基础设施提供更好的灵活性,能够更快速的在训练和推理应用之间,内部使用和对外售卖之间灵活转换。”

另外,本土集成商新华三和浪潮信息也带来了对metaConnect和metaScale的反馈。

新华三集团副总裁、人工智能研究院院长李飞介绍,在新华三4机32卡集群端网协同测试中,云脉芯联metaConnect-400S AI NIC产品在400G RDMA网络的集合通信库方面的表现已比肩国际一线厂商产品水平,双方联创的解决方案目前也已在客户侧部署落地。

浪潮信息网络研发部总经理李鹏翀则表示,云脉芯联metaScale-50、metaScale-200和metaScale-200S目前已顺利通过浪潮的供应商引入测试,未来将与浪潮产品一起服务客户,同时采购的云脉芯联YSA-100芯片,也将作为浪潮信息自研智能网卡的核心组件推向市场。

披荆斩棘的DPU, 正在面临怎样的变革?

DPU产业正在如火如荼的高速发展,那么到底是什么在支撑DPU行业披荆斩棘呢?笔者认为首先是人工智能行业的发展在持续推高市场侧的需求,即解决数据中心等基础设施的“降本增效”难题。具体来讲就是将“CPU处理效率低下、GPU处理不了”的数据传输工作负载卸载到专用DPU,以提升整个计算系统的效率、降低整体系统的总体拥有成本(TCO)。

早些年,大家谈论的更多是CPU处理效率低下情况下DPU的用武之处,但近年来,这个趋势正在“被转变”。因为近年来,在数据中心中,GPU服务器的占比越来越高。根据Dell’Oro Group的数据显示,预计在3-5年后,即2027-2028年前后,GPU服务器的数量将超过CPU服务器的数量。届时,DPU将更多地被用于解决大型集群中海量GPU协同工作的问题。

从云脉芯联此次推出的产品,我们可以看到,metaConnect系列AI智能网卡和metaVisor系列AI DPU就是应这一趋势推出的产品。

GPU服务器会带来怎样的改变呢?前几年,当我们提到400G、800G觉得好像很遥远,因为大家常用的还是10G、25G、50G网络。但是,GPU并行计算一下子把网络推到了400G以上

DPU是一个强IO型的芯片,相较通过间接手段来支持网络IO的CPU而言,DPU的IO带宽几乎可以与网络带宽等同,例如,网络支持25G,那么DPU就要支持25G。

所以,当网络带宽从主流 10G朝着25G、40G、100G、200G、400G,甚至800G发展时,原来基于“CPU/NP”和“FPGA+CPU”这两类硬件架构的DPU,除了在性能上难以为继以外,在成本和功耗上也存在较大挑战,而结合了ASIC和CPU双边优势的“ASIC+CPU”硬件架构将引领产品趋势。

写在最后

受到地缘政治等不确定因素的影响,国内必须形成闭环的产业链才能实现真正自主的发展,而在AI领域,当前大家把更多的关注放在GPU等核心芯片上,事实上真正国产化低的是高速网卡,所以这也是接下来AI产业要克服的重点。

好在,近年来越来越多的国产DPU厂商拿出了可商业化的产品,也在不断适配国内的CPU、GPU、路由等产品,希望在未来几年的迭代后,可以真正做到高性能产品的自主可控。

云脉芯联

云脉芯联

上海云脉芯联科技有限公司是一家专注于云数据中心网络芯片产品研发与技术创新的高科技创新企业。公司致力于打造用于大规模数据中心和云计算基础设施的网络互联芯片,帮助用户构建端网融合的高性能网络基础设施,以应对进入全面数字化和智能化时代的技术挑战。

上海云脉芯联科技有限公司是一家专注于云数据中心网络芯片产品研发与技术创新的高科技创新企业。公司致力于打造用于大规模数据中心和云计算基础设施的网络互联芯片,帮助用户构建端网融合的高性能网络基础设施,以应对进入全面数字化和智能化时代的技术挑战。收起

查看更多

相关推荐

电子产业图谱