算力重器DPU，火得猝不及防

作者：丰宁

自计算机问世以来，一直采用的冯·诺依曼架构，该架构以计算和存储为核心。其中CPU作为处理器单元，负责执行各种算术和逻辑计算。RAM和硬盘则负责存储数据，与CPU进行交互。

再后来图形、3D设计等多媒体软件的高速发展，要处理的工作量越来越大，也越来越复杂。为了帮CPU分担压力，专门进行图像和图形处理工作的GPU应运而生。

如今，随着数字经济的蓬勃发展，特别是生成式人工智能、大数据分析、自动驾驶、元宇宙等应用的迅速普及与实施，全球各行各业对大规模算力的渴求呈现出急剧增长的态势。这时候，DPU（数据处理单元）凭借其卓越的性能和独特优势，逐步崭露头角，成为推动算力提升的关键技术之一。

英伟达首席执行官黄仁勋曾在演讲中表示：“ DPU 将成为未来计算的三大支柱之一，未来的数据中心标配是‘ CPU + DPU + GPU ’。CPU 用于通用计算， GPU 用于加速计算， DPU 则进行数据处理。”

那么DPU的主要作用为何？相比CPU、GPU有哪些优势？

DPU与CPU、GPU的主要区别

DPU的出现并非偶然，而是对日益增长的数据处理需求的有力回应。

从功能上看，CPU、GPU和DPU虽都属于计算处理器，但各自长于不同功能。CPU负责计算机系统的整体运行，是计算机的"大脑”，适用于各种广泛的应用，但在处理大规模数据和特定计算任务时性能相对有限。

GPU是用于图形计算任务的专用处理器，例如3D图像渲染或视频处理等。对于大规模并行计算任务（如深度学习训练）有一定优势，但在一些特定任务上可能并不是最佳选择。

而DPU专门设计用于数据处理任务，具有高度优化的硬件结构，适用于特定领域的计算需求。其灵活性和高性能使其成为未来计算的重要组成部分。

从架构上看，CPU由几个功能强大的处理核心组成，这些核心针对串行处理进行了优化，优势在于按顺序逐个执行任务。GPU包含大量更简单的核心，针对并行处理进行了优化，优势在于同时处理大量任务。DPU则由处理核心、硬件加速器元件和高性能网络接口组合而成，便于其处理以数据为中心的大规模任务。

再看应用领域，CPU几乎存在于一切计算设备当中，包括智能手机、计算机、服务器等。GPU常被用于游戏PC设备。

DPU则主要用于数据中心。FPGA是DPU的核心技术之一，它具有在硬件级别上重新配置的能力，使其适用于多种计算任务。DPU利用FPGA的灵活性，通过重新配置硬件来实现高效的数据处理。异构计算是DPU的另一个关键技术，它通过同时利用不同类型的处理单元来执行任务，以提高整体性能。异构计算中的处理单元可以包括CPU、GPU、FPGA等，它们共同协作完成计算任务。在两大技术的加持下，DPU能够充分发挥其性能优势，为数据中心提供强大的计算能力支持。

事实上，DPU已经不是第一个为弥补CPU能力不足而备受关注的产品，多年前GPU的大热也是为了弥补CPU在图形处理能力方面的短板。换句话说，从CPU、GPU再到今天的DPU，技术变革背后体现的其实是时代的变化、用户需求的变化。

DPU的应用正在走向多场景化

DPU 分担的工作可以归纳为四个关键词，分别是虚拟化、网络、存储以及安全。

DPU通过将控制平面下放，从而实现主机业务与控制平面的完全隔离，从而提升了虚拟环境的安全性。DPU的高效数据处理能力加速了虚拟机间的通信，提高了虚拟化性能。

此外，存储行业的革新算法和实现，也可以在 DPU 架构中，独立于服务器操作系统进行部署。 DPU 技术帮助存储厂商实现真正的 “算存分离”。

在网络与安全方面，随着数据泄露和隐私泄露的事件频发，数据安全和隐私保护已经成为一个备受关注的问题。DPU可以利用可编程硬件卸载和加速内联安全服务，提供强大的零信任保护，有效隔离主机业务和控制平面，确保数据安全性。

具体到各个场景的应用中，上文提到的数据中心只是DPU主要的应用领域之一。

除了数据中心，DPU同样能够“驾驭”众多应用。在HPC和AI场景，DPU可提供超高带宽、无损网络和高速存储访问能力，可为HPC和AI提供业务所需的超高性能网络。网络、存储与安全是DPU的主要应用。

在风起云涌的边缘计算领域，DPU的引入大有裨益。随着业务增多，边缘算力和带宽需求大幅增加，但边缘设施的规模和能力受限，CPU主要满足核心业务的算力需求，对本不擅长的网络、存储、安全等相关处理无暇顾及。引入DPU可大大降低此类DPU对CPU的消耗，同时使用专用硬件提升处理性能，从而大幅提升边缘计算的处理能力。

在智算场景下DPU也拥有广阔的市场空间，DPU通过高性能网络及领域功能硬件卸载，为智算中心提供了大带宽、高吞吐、低时延的基础设施能力，从而消除了数据IO瓶颈，释放了算力。这使得DPU成为智算中心基础设施的必选项，大幅提升了计算集群的算效比。

多元化的应用场景为DPU带来了丰富的商业机遇，未来DPU有望进一步拓展至自动驾驶、人工智能和元宇宙等领域。

DPU战场百家争鸣

随着 DPU 技术方案更加成熟、数据中心在全球范围内加速落地，英伟达、英特尔等厂商数据处理类芯片DPU/IPU大规模量产，全球 DPU 市场将在未来几年迎来爆发式增长。

DPU 行业市场集中度较高。根据头豹研究院数据，近年来国内 DPU 市场中，国际三大巨头英伟达、博通、英特尔的份额分别达到 55%、36%、9%。Xilinx、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家厂商在近 2-5 年内也均有 DPU 或相似架构产品生产，较国内相对较早。

英伟达的数据中心“野心”

在上表列出的诸多公司中，英伟达具有先发优势。2019年3月，英伟达花费69亿美元收购了以色列芯片公司 Mellanox 。英伟达将 Mellanox 的 ConnectX 系列高速网卡技术与自己的已有技术相结合，于2020年正式推出了两款 DPU 产品BlueField-2 DPU 和 BlueField-2X DPU，正式拉开 DPU 发展的序幕。

如今，英伟达的BlueField 系列芯片已到达第三代，英伟达 BlueField-3 DPU 是一款支持 400Gb/s 速度的基础设施计算平台，能够线速处理软件定义网络、存储和网络安全任务。BlueField-3 将强大的计算能力、高速网络和广泛的可编程性集于一身，可为要求苛刻的工作负载提供软件定义的硬件加速解决方案。从加速 AI 到混合云和高性能计算，再到 5G 无线网络，BlueField-3 重新定义了各种可能性。

英伟达的DPU主要作用是数据安全、网络安全与存储卸载等。在英伟达对DPU的布局中也足以看到，它在数据中心这一应用领域的野心，也有人称，英伟达正“试图利用DPU再一次复制此前GPU替代显示加速卡成为通用显示芯片的路径”

英特尔推出IPU迎战数据中心

英特尔在2021年6月新发布的IPU产品（可以被视为Intel版本的DPU），将FPGA与Xeon D系列处理器集成，成为了DPU赛道有力的竞争者。IPU是具有强化的加速器和以太网连接的高级网络设备，它使用紧密耦合、专用的可编程内核加速和管理基础架构功能。2022 年的 Vision 全球用户大会期间，英特尔又公布了 IPU 发展蓝图，呈现近三年及未来即将问世的产品与平台。

在发展蓝图中，英特尔揭露 3 款 IPU 产品，分别对应 ASIC、IPU 平台、SmartNIC，此外英特尔还揭露了两条发展路线，一个是基于专属 ASIC 芯片的 IPU，代号为 Mount Evans；另一个则是基于 FPGA 架构的两种加速解决方案，代号为 Oak Springs Canyon 的 IPU 平台。

针对两种 IPU 应用特性的差异，英特尔也在此做出最新的诠释。若是基于 FPGA 架构而成的 IPU，能更快供应市场需求，支持持续演化的网络标准，透过能重复进行的可编程化特性，以及安全的资料传输路径，能够弹性处理多种特定工作负载；如果是基于 ASIC 架构而成的 IPU，可提供最佳效能与功耗的搭配，能用于确保网络与存储等任务领域的安全性。

发展蓝图显示，英特尔的第二代IPU已于2022年推出，包括Mount Evans（英特尔首款ASIC IPU）和Oak Springs Canyon（英特尔第二代FPGA IPU），目前正在向谷歌及其它服务提供商出货。第三代IPU代号为Mount Morgan和Hot Springs Canyon的400 GB IPU预计2023/2024年开始向客户及合作伙伴出货。下一代800GB IPU预计2025/2026年开始向客户及合作伙伴出货。

此外，赛灵思已经推出DPU处理器——Alveo SmartNIC产品组合。DPU可以用作独立的嵌入式处理器，但通常是被集成到SmartNIC里。博通旗下有Stingray，Marvell则拥有OCTEON和ARMADA产品系列。

相比于CPU和GPU赛道，DPU毫无疑问是一个崭新的竞技场。随着网络流量指数上涨，DPU市场前景广阔。在国际巨头加紧布局DPU业务的同时，国内芯片市场也频传好消息。

国内厂商各展所长

近年来，国家不断推动数字经济的快速发展。算力基础设施是数字经济发展的重要基础，而算力和高性能网络已成为算力基础设施的核心能力，尤其是在人工智能和边缘计算等需求的推动下，高性能网络和DPU已愈发重要。

工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门近日联合印发《算力基础设施高质量发展行动计划》。该计划具体规定了到2025年，算力基础设施发展的主要目标、重点任务和保障措施等，并重点提出针对智能计算、超级计算和边缘计算等场景，开展DPU等技术升级与试点应用，实现算力中心网络高性能传输。这是国家层面的文件首次对未来3年的DPU发展指明了方向。

随着 DPU 产业的快速发展，国内也涌现出了一大批 DPU 公司。

中科驭数

中科驭数基于自研敏捷异构 KPU 芯片架构以及 DPU 软件开发平台 HADOS，公司自主研发了业界首颗融合高性能网络与数据库一体化加速功能的 DPU芯片和标准加速卡系列产品，可广泛应用于超低延迟网络、大数据处理、5G 边缘计算、高速存储等场景，助力算力成为数字时代的新生产力。

在 DPU 产品的研发迭代方面，中科驭数于 2019 年流片了第一代 DPU 芯片K1，第二代 DPU 芯片 K2 也于 2022 年初成功投片，目前已开始第三代 DPU 芯片 K2 Pro 的研发工作。针对数据中心关键性能瓶颈与业务需求，中科驭数也基于自研DPU芯片推出了RDMA加速卡、云原生网络加速卡等系列产品，支持超大规模组网算力互连，以支撑算力底座建设所必须的100G+超高带宽和低时延，使更多的CPU/GPU算力真正服务于业务，为智算中心建设提供全套的性能更高和算力更好的解决方案。

国产化建设浪潮之下，中科驭数也正全面拥抱国产化生态，积极与国内产业链上下游厂商开展产品兼容性认证。目前，中科驭数已与国内6大CPU芯片、12家主流操作系统、9家主流数据库厂商、8家头部云/云原生厂商、17家TOP级服务器厂商完成兼容性适配。

芯启源

芯启源具有完全自主知识产权的 DPU 芯片。芯启源 DPU 较传统智能网卡提供了更大的处理能力、更强的灵活性、可编程数据包处理、可扩展 Chiplet结构等特性。采用 NP-SoC 模式进行芯片设计，通用 ARM 架构结合高度优化面向数据包的 NP 芯片（RISC-V 内核）、多线程的处理模式，使其可以达到 ASIC 固化芯片的数据处理能力，同时考虑到了全量可编程、灵活可扩展的属性，用以支持400Gbps 及以上的性能目标、低功率且具有成本效益等。

芯启源从2019年开始研发第一代FPGA智能网卡，2020年开始推出第二代基于NP-SoC架构的产品，逐步推向市场。如今，芯启源推出了基于SoC-NP架构的DPU芯片智能网卡，具有可编程性、可扩展性和高性能三个重要特点，已成熟量产出货，商业落地，能够适应于广泛的应用场景，成为了真正意义上国内最早一批进入DPU领域的芯片公司。

据悉，芯启源正在研发的新一代NFP-7000 DPU芯片，将对标Nvdia的BlueField-3，并用“通用型芯片+定制化软件”的模式推动行业的网卡国产化。从设计目标来看，该款芯片的性能与功能，完全不亚于英伟达的BlueField-3，同时，该芯片未来会根据不同场景需求来设定其能力范围，这样将大大降低芯片的成本，更符合国内芯片的多场景需求。

云豹智能

目前云豹智能领跑国内数据中心场景的国产DPU芯片方案。云豹智能 DPU SoC 是国内第一颗通用可编程 DPU 芯片，具备丰富的可编程性和完备的 DPU 功能，支持不同云计算场景和资源统一管理，优化数据中心计算资源利用率。

云豹DPU通过对各种高速网络、弹性存储、安全服务及可靠运维和管控进行卸载、加速及隔离，为云端、数据中心、人工智能及边缘计算等提供新一代计算平台。

目前云豹智能已与头部云计算大厂、电信运营商和央企等开展深度合作，共同推进DPU产业落地。

大禹智芯

大禹智芯也拥有DPU设计与研发及DPU大型商业化部署的成功经验。大禹智芯Paratus系列DPU产品采用三条产品线并行的方式逐步面向广泛商用市场推出易用并好用的DPU产品：

Paratus 1.0作为大禹智芯DPU的第一条产品线产品，采用ARM SoC作为主处理单元，提供多个10Gbps/25Gbps的业务网络接口，同时为了方便用户管理，单独设置了RJ45管理口。
Paratus 2.0作为大禹智芯DPU的第二条产品线产品，采用ARM SoC + FPGA的硬件架构，在Paratus 1.0产品基础上，利用FPGA对可固化逻辑的数据包实现高性能转发，提供多个10G/25G、100G的业务网络接口。

Paratus 3.0作为第三条产品线产品，将采用大禹智芯自研DPU芯片。该芯片将结合公司对DPU相关技术及未来应用场景的理解，和前两条产品线（Paratus 1.0和Paratus 2.0）在实际场景部署中获得的宝贵客户反馈意见和经验积累，形成高度集成化的DPU产品。

阿里云 CIPU

2022 年阿里云峰会上，阿里云正式发布了云基础设施处理器 CIPU，CIPU 的前身是MoC 卡 (Micro Server on a Card)，MoC 卡是神龙架构的灵魂所在。MoC 卡拥有独立的I/O、存储和处理单元，承担了网络、存储和设备虚拟化的工作。

第一代和第二代 MoC 卡解决了狭义上的计算虚拟化零开销的问题，网络和存储部分的虚拟化仍由软件实现。第三代MoC 卡实现了部分网络转发功能硬化，网络性能大幅提升。第四代 MoC 卡实现了网络、存储全硬件卸载，还支持了 RDMA 能力。

除了上文列举的几家公司外，星云智联、锐文科技等多家优秀的国产厂商，均凭借技术创新与产品定义方面的优势，沿着差异化路线抢滩市场。不过，值得注意的是，目前国内DPU仍处于发展早期阶段。对于国内DPU企业来说，眼下最重要的事还是要先把实际产品做出来，并在应用场景中进行检验，毕竟DPU作为一个新兴的技术领域，其产品的开发难度较高，且市场对其性能、稳定性和安全性等方面都有极高的要求。

DPU进入爆发期

根据赛迪顾问数据显示，从2023年开始全球DPU市场规模将突破百亿美元，并进入年增长率超50%的快车道。而中国DPU市场规模在2023年也将超300亿元人民币，呈现跳跃式增长，2025年国内市场规模将达到565.9亿元，五年复合增速达170.60%。

目前，包括亚马逊、阿里云、华为在内的云计算龙头都在发展符合自身要求的DPU产品线。

除数据中心以外，智能驾驶、数据通信、网络安全等也是DPU的下游应用领域。

此外，DPU与DOCA对于大模型和生成式AI而言，意义重大。根据Gartner，预计在 2026 年，超过80%的企业将使用生成式AI应用程序编程接口（API）或模型，或者在相关生产环境中部署支持生成式AI的应用程序。据统计，这一比例在2023年还不到5%，这意味着在短短三年内，采用或创建生成式AI模型的企业数量预计将会增长16倍。

也就是说，未来3年是生成式AI爆发的窗口期，也是普及BlueField DPU和DOCA的机遇期。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MCF52258CAG66	1	Freescale Semiconductor	MCF522XX 32-bit MCU, ColdFire V2 core, 512KB Flash, 66MHz, QFP 144		$12.68	查看
ATMEGA644PA-AUR	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP		$4.99	查看
STM32H743VIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$20.56	查看