通往数据中心的第三条路 NVIDIA 走到哪儿了？

每年，全球市场上交付的数据中心服务器大约有3000万台，其中1/3用于运行软件定义的数据中心堆栈，这类工作负载的增长速度远快于摩尔定律，除非卸载并加速这类工作负载，否则数据中心用来运行应用程序的CPU 算力会越来越少。当AWS提出所谓的“Datacenter Tax”时，数据中心普遍的焦虑被摆上台面。

基于减法的加法
数据中心长期的迭代方向已经随着光网络的铺设、通信的密度、底层算力的生态设施建设等，不断升级。随着带宽不断提升，数据量和复杂性将呈指数级增长，包括网络协议处理、存储压缩、数据加密等数据的处理也日趋复杂。受此影响，传统数据中心服务器以CPU为处理中心的模式开始发生变化。

因为CPU成本高昂，资源宝贵，被这些应用耗费着实有点可惜。如何给CPU做减法？GPU和FPGA已经在数据分析和加速上实现了减法，但还不足以满足面向未来数据中心基础架构层面的变革，即将计算移动到接近数据的位置，而非传统的将数据移动到计算所在位置再做处理的方式，这是业界所公认的以数据为中心的体系结构下的创新。

于是，DPU应势而生，用以专门卸载由虚拟化、网络、存储、安全和AI服务而产生的任务负载，以及未来的关键——数据的传输。在为CPU做减法同时，DPU给面向未来数据中心基础架构层面的变革做了一个加法。

不同于服务器CPU，DPU专为网络包处理而设计。虽然架构不同，但大多数都包含可编程数据平面，以及用于控制平面和应用代码的CPU核。DPU专用数据路径不仅比使用CPU核更高效，而且性能也远高于后者。

例如，在网络方面，DPU可以加速先进的数据中心SDN和网络功能虚拟化（NFV），包括Open vSwitch、Overlay协议（如VXLAN）、网络地址转换（NAT）、负载均衡和精细化流量管理；在存储方面，DPU可加速RoCE（RDMA Over Converged Ethernet）、NVMe-oF、静态数据加密、数据去重、分布式纠错和数据压缩。

可以将DPU理解成一颗集成了从网络端口到PCIe接口所有主要功能的可编程网络系统级芯片，运行非应用型负载，从而可以让服务器CPU资源更好地服务应用负载。对数据中心而言，这种分工，不仅可以实现效率的提升，而且也可以实现总体系统成本的降低。

显然，DPU带来了一个巨大的市场，包括资本在内的各路玩家争先恐后：思科的前高管创办了DPU公司Pensando，获得了HPE、Oracle和Lightspeed Venture Partners等公司的投资；2019年，软银愿景基金领投的2亿美元给了推出基于MIPS架构DPU的Fungible；脱胎于中科院计算所计算机体系结构国家重点实验室的中科驭数，推出了其自研KPU专用处理器架构的DPU；芯启源去年获得和利资本与软银中国共同领投数亿元融资，该公司产品是基于DPU的智能网卡；珠海星云智联去年也完成数亿元天使轮融资，由高瓴创投领投，鼎晖VGC（鼎晖创新与成长基金）、华登国际中国基金参与跟投。就在不久前，AMD也宣布收购Pensando，花费19亿美元。

显然，继CPU、GPU之后，DPU已经成为通往数据中心的第三条路。

NVIDIA的鼓点
DPU最早的概念，由Fungible提出。而真正完整定义DPU并实现大规模部署的是NVIDIA——该公司以创纪录的69亿美元收购Mellanox，眼下，全球大概有将近90%以上的高速网卡都是NVIDIA的网卡。

NVIDIA看中的正是Mellanox的BlueField DPU，不过，Mellanox最初的命名是IPU（I/O处理单元），主要处理在 I/O 路径硬件中的数据，通过更多的硬件安全功能，包括无代理微分段、高级恶意软件检测、深度包检测和应用程序识别等，实现兼顾软件定义解决方案的速度和灵活性，并且提高安全性、加速了性能并改善效率。

在完成收购后，NVIDIA开始加快BlueField DPU的迭代，倾注了更多的设计资源，集成Arm处理器核、VLIW矢量计算引擎和智能网卡的功能。BlueField-2 DPU内部集成8个Arm核，NVIDIA称其为AI-powered DPU，用于智能网卡和存储控制器。而BlueField-2X卡上则加配了Ampere架构的GPU，集成了高达200Gbps的以太网或InfiniBand网络端口和高带宽的PCIe接口。

仅仅不到一年，BlueField-3 DPU横空出世，号称“一颗可抵300个x86核才能实现的服务”。作为业内首款400Gbps以太网和NDR InfiniBand DPU，BlueField-3 DPU具有更好的网络性能，内置16个Arm A78 核，相比上一代产品，实现了10倍加速计算能力和4倍的加密速度。BlueField-3 DPU与16核256个线程的可编程数据路径硬件加速器相结合，实现了线速处理，且无需访问Arm控制器，实现了Arm核上的零负载数据路径处理。这样，在许多应用中，可由数据路径自主处理已知的网络流量，由Arm核处理新流量等例外情况及控制平面功能。

BlueField-3 DPU一方面加强了Smart NIC对于网络协议和网络安全的处理能力，另一方面整合并加强了分布式存储的处理能力，从而让DPU能在这些领域更多地替代CPU。BlueField-3X卡还增加一个75 TOPS 的加速器，在一个PCIe槽位上实现了DPU+GPU的集成解决方案，为那些在网络安全、软件定义网络、云编排和其它应用中添加AI功能的应用，提供超强处理能力。

图：BlueField-3号称一颗可抵300个CPU核

按照NVIDIA的计划，一年后，该公司将推出BlueField-4 DPU。BlueField-2 DPU和BlueField-3 DPU依靠其Arm核进行AI处理，而BlueField-4 DPU将集成一个用于AI加速的GPU——其AI性能与 NVIDIA的A100等顶尖加速器处于同一级别，网络速率将暴增到800Gb/s，计算能力将再次提升10倍，具备云原生、解耦能力、微服务、AI、Zero-Trust安全等特性，以契合未来数据中心基础设施的核心需求。

图2：NVIDIA BlueField DPU 路线图

解耦和耦合
尽管DPU的价值已经成为共识，但它也面临一个可以说是高处不胜寒的挑战：用户要自己编写底层代码，这使得其早期应用仅限于一小群用户。

相比CPU和GPU的单个引擎类型，DPU的处理引擎会有很多，如针对基础设施层的虚拟化、网络、存储、安全等的处理引擎，以及各类开发库、文件系统、数据库、网络访问等的处理引擎。这些场景的软硬件解耦难度大。CPU和GPU都实现了软硬件解耦，软件开发者和芯片开发者可以各自相对独立的完成工作，但在DPU，要想实现软硬件解耦非常困难。

当年，为了让GPU实现软硬件解耦，NVIDIA 推出了CUDA和GPGPU架构，而今，在DPU上这个问题也自然要得到解决。为了使ISV、服务提供商和学术界能够采用BlueField DPU，NVIDIA 开发了DOCA（Data Center On A Chip Architecture，线上数据中心基础设施体系结构）。

DOCA可以为BlueField DPU编程提供更高级别的抽象化，从而消除应用开发者采用BlueField DPU需要自定义底层代码的障碍。从DOCA软件开发套件来看，它主要是创建和构建应用程序所需的所有组件，包括驱动程序、抽象的API库、各种开发工具、参考源代码、示例程序和开发所需相关的文档。

DOCA框架能够给开发者提供一个一致的开发体验，既可以统一访问BlueField DPU上各种硬件资源，从而简化网络、存储、安全和基础设施管理服务相关的开发，开发者也无需担心开发环境构建和部署复杂程度，基本上DOCA是个即插即用的方式，可以让开发者很容易地来使用这个软件栈。

通过提供运行二进制文件和上层API，DOCA框架使开发者能够专注于应用代码开发，而无需了解DPU硬件的复杂之处。此外，尽管Arm处理器已进入云服务器，但许多应用开发者都有一个庞大的x86代码库，且尚未为Arm移植做好准备。NVIDIA的DOCA Runtime适用于x86，可以消除Arm 移植的障碍，使其可以立刻采用BlueField DPU，并在以后进行优化。

最早的DOCA 1.0是在2020年GTC秋季大会上，与BlueField-2 DPU一同发布的，后面持续演进到DOCA 1.1版本，更加完善了整个DOCA软件栈，提供了DOCA SDK、运行时和相关的服务。到了DOCA1.2版本，则加强了在零信任分布式安全解决方案上的支持。

今年5月份，NVIDIA发布了DOCA 1.3，它提供了121个新的API开发接口，也提供了一些全新和增强的功能，包括优化数据流插入的DOCA Flow库、通信通道库、正则表达式库、App Shield的SDK、基于OVN的IPSec加密的完全卸载，以及新增的一些DOCA服务，比如HBN——基于主机的网络，使网络架构师能够基于三层协议设计网络，在BlueField DPU上实现了三层的路由功能。HBN还可以分析和加密进出节点的流量。

HBN为裸金属云实现了无控制器的分布式路由，在BlueField DPU上实现高级的TOR交换机功能、高可用的等价多路径路由（ECMP）和端到端增值功能NVUE/NetQ/Telemetry。同时，BlueField DPU与基于Cumulus的Spectrum交换机可以提供统一的数据中心EVPN网络架构，可提供一站式网络编排服务，也可使用NVUE和NetQ实现统一管理平台，并通过端到端遥测来减少网络不可用时间——这种方式会彻底改变开发者构建和思考整个数据中心网络构建的方式。

图：DOCA 1.3的资源

用软件解锁BlueField DPU，DOCA实现了BLueField DPU软硬件的解耦，简化了BlueField DPU的应用，解锁数据中心里基于BlueField DPU的创新功能，就这个意义而言，DOCA实现了开发者和BlueField DPU的耦合。

当下即未来
构建以数据为中心的系统已经是大势所趋。

GPU用于加速计算，CPU用于通用计算。DPU用于处理网络数据任务，基于Arm架构的CPU，则负责释放二者的能力。当NVIDIA将CPU、GPU和DPU作为数据中心三大算力支柱进行部署时，其总体策略也浮出水面——在强调云端高端算力的同时，向数据中心通信传输和数据处理领域加速渗透，形成“计算+传输”双管齐下的业务闭环，将数据中心整体作为一个系统来打造，实现分布式计算的可能性，并提供一个全栈式的计算平台。

今年GTC2022上发布的第四代NVIDIA DGX™系统是一个最好的例证。这一全球首个基于全新NVIDIA H100 Tensor Core GPU的AI平台，除了8块H100 GPU以及总计6400亿个晶体管之外，每个DGX H100系统还包含两个NVIDIA BlueField-3 DPU，专门负责卸载、加速和隔离高级网络、存储及安全服务。

在BlueField DPU以及DOCA发布之后两三年的时间里，在全球5G孪生的安全、云基础设施及容器部署、边缘服务器平台的扩展、云原生高性能存储以及基于操作系统层面的加速来支持高性能的元宇宙的应用中，都能看见BlueField DPU的身影。而目前，中国的DOCA开发者也已占据全球一半以上，他们正在应用BlueField DPU开发相应的金属云加速网络平台，高性能分布式存储，数字孪生基础设施，以及超级计算的网络平台。

在通往数据中心的第三条路上，NVIDIA走到哪儿了？也许，当下即未来。

通往数据中心的第三条路 NVIDIA 走到哪儿了？

相关推荐