到底什么样的网络，才能带得动AIGC？

2023年，是AI 人工智能技术全面爆红的一年。

以ChatGPT、GPT-4、文心一言为代表的AIGC 大模型，集文本撰写、代码开发、诗词创作等功能于一体，展现出了超强的内容生产能力，带给人们极大震撼。

作为一个通信老司机，除了AIGC大模型本身之外，小枣君更加关注的，是模型背后的通信技术。到底是一张怎样的强大网络，在支持着AIGC的运转？此外，AI浪潮的全面来袭，将对传统网络带来怎样的变革？

█ AIGC，到底需要多大的算力？

众所周知，数据、算法和算力，是人工智能发展的三大基本要素。

前面提到的几个AIGC大模型，之所以那么厉害，不仅是因为它们背后有海量的数据投喂，也因为算法在不断进化升级。更重要的是，人类的算力规模，已经发展到了一定程度。强大的算力基础设施，完全能够支撑AIGC的计算需求。

AIGC发展到现在，训练模型参数从千亿级飙升到了万亿级。为了完成这么大规模的训练，底层支撑的GPU数量，也达到了万卡级别规模。

以ChatGPT为例，他们使用了微软的超算基础设施进行训练，据说动用了10000块V100 GPU，组成了一个高带宽集群。一次训练，需要消耗算力约3640 PF-days（即每秒1千万亿次计算，运行3640天）。

一块V100的FP32算力，是0.014 PFLOPS（算力单位，等于每秒1千万亿次的浮点运算）。一万块V100，那就是140 PFLOPS。

也就是说，如果GPU的利用率是100%，那么，完成一次训练，就要3640÷140=26（天）。

GPU的利用率是不可能达到100%，如果按33%算（OpenAI提供的假设利用率），那就是26再翻三倍，等于78天。

可以看出，GPU的算力、GPU的利用率，对大模型的训练有很大影响。

那么问题来了，影响GPU利用率的最大因素，是什么呢？

答案是：网络。

一万甚至几万块的GPU，作为计算集群，与存储集群进行数据交互，需要极大的带宽。此外，GPU集群进行训练计算时，都不是独立的，而是混合并行。GPU之间，有大量的数据交换，也需要极大的带宽。

如果网络不给力，数据传输慢，GPU就要等待数据，导致利用率下降。利用率下降，训练时间就会增加，成本也会增加，用户体验会变差。

业界曾经做过一个模型，计算出网络带宽吞吐能力、通信时延与GPU利用率之间的关系，如下图所示：

大家可以看到，网络吞吐能力越强，GPU利用率越高；通信动态时延越大，GPU利用率越低。

一句话，没有好网络，别玩大模型。

█ 怎样的网络，才能支撑AIGC的运行？

为了应对AI集群计算对网络的调整，业界也是想了不少办法的。

传统的应对策略，主要是三种：Infiniband、RDMA、框式交换机。我们分别来简单了解一下。

Infiniband组网

Infiniband（直译为“无限带宽”技术，缩写为IB）组网，搞数据通信的童鞋应该不会陌生。

这是目前组建高性能网络的最佳途径，带宽极高，可以实现无拥塞和低时延。ChatGPT、GPT-4所使用的，据说就是Infiniband组网。

如果说Infiniband组网有什么缺点的话，那就是一个字——贵。相比传统以太网的组网，Infiniband组网的成本会贵好几倍。这项技术比较封闭，业内目前成熟的供应商只有1家，用户没什么选择权。

RDMA网络

RDMA的全称是Remote Direct Memory Access（远程直接数据存取）。它是一种新型的通信机制。在RDMA方案里，应用程序的数据，不再经过CPU和复杂的操作系统，而是直接和网卡通信，不仅大幅提升了吞吐能力，也降低了时延。

RDMA最早提出时，是承载在InfiniBand网络中的。现在，RDMA逐渐移植到了以太网上。

目前，高性能网络的主流组网方案，是基于RoCE v2（RDMA over Converged Ethernet，基于融合以太网的RDMA）协议来组建支持RDMA的网络。

这种方案有两个重要的搭配技术，分别是PFC（Priority Flow Control，基于优先级的流量控制）和ECN（Explicit Congestion Notification，显式拥塞通知）。它们是为了避免链路中的拥塞而产生的技术，但是，频繁被触发，反而会导致发送端暂停发送，或降速发送，进而拉低通信带宽。（下文还会提到它们）

框式交换机

国外有部分互联网公司，寄希望于利用采用框式交换机（DNX芯片+VOQ技术），来满足构建高性能网络的需求。

DNX：broadcom（博通）的一个芯片系列VOQ：Virtual Output Queue，虚拟输出队列这种方案看似可行，但也面临以下几个挑战。

首先，框式交换机的扩展能力一般。机框大小限制了最大端口数，如想做更大规模的集群，需要横向扩展多个机框。

其次，框式交换机的设备功耗大。机框内线卡芯片、Fabric芯片、风扇等数量众多，单设备的功耗超过2万瓦，有的甚至3万多瓦，对机柜供电能力要求太高。

第三，框式交换机的单设备端口数量多，故障域大。

基于以上原因，框式交换机设备只适合小规模部署AI计算集群。

█ 到底什么是DDC

前面说的都是传统方案。既然这些传统方案不行，那当然就要想新办法。

于是，一种名叫DDC的全新解决方案，闪亮登场了。

DDC，全名叫做Distributed Disaggregated Chassis（分布式分散式机箱）。

它是前面框式交换机的“分拆版”。框式交换机的扩展能力不足，那么，我们干脆把它给拆开，将一个设备变成多个设备，不就OK了？

框式设备，一般分为交换网板（背板）和业务线卡（板卡）两部分，相互之间用连接器连接。

DDC方案，将交换网板变成了NCF设备，将业务线卡变成了NCP设备。连接器，则变成了光纤。框式设备的管理功能，在DDC架构中，也变成了NCC。

NCF：Network Cloud Fabric（网络云管理控制平面）NCP：Network Cloud Packet Processing（网络云数据包处理）NCC：Network Cloud Controller（网络云控制器）

DDC从集中式变成分布式之后，扩展能力大大增强了。它可以根据AI集群的大小，灵活设计组网规模。

我们来举两个例子（单POD组网和多POD组网）。

单POD组网中，采用96台NCP作为接入，其中NCP下行共18个400G接口，负责连接AI计算集群的网卡。上行共40个200G接口，最大可以连接40台NCF，NCF提供96个200G接口，该规模上下行带宽为超速比1.1:1。整个POD可支撑1728个400G网络接口，按照一台服务器配8块GPU来计算，可支撑216台AI计算服务器。