英伟达为什么发展NVLink 技术

1. GPU 加速计算的需求和传统数据传输的瓶颈

近年来，随着深度学习、科学计算、图像处理等领域的发展，GPU（图形处理单元）在加速计算方面扮演着越来越重要的角色。GPU 以其强大的并行计算能力，能够同时处理大量数据并执行复杂的计算任务，因此被广泛应用于需要高性能计算的场景。然而，GPU 作为独立的计算单元，通常需要频繁地与其他 GPU 和 CPU 之间进行数据交换。

在传统的计算机架构中，CPU 和 GPU 之间主要通过 PCIe（Peripheral Component Interconnect Express）总线进行通信。虽然 PCIe 已经成为了标准的高速互联协议，但其带宽有限，随着计算需求的增长，其数据传输速度在某些应用中已难以满足 GPU 和 CPU 之间的大量数据交互需求。尤其是在深度学习等应用场景中，GPU 之间需要共享大量数据，例如神经网络参数和梯度，低带宽的数据传输会导致明显的瓶颈，影响计算效率。

2. NVLink 的设计目标与技术特点

NVIDIA 为了提升 GPU 与 GPU、GPU 与 CPU 之间的数据传输效率，开发了 NVLink 技术。这是一种专为 GPU 加速计算设计的高速互连技术，具有以下几个主要特点：

高带宽：NVLink 在 1.0 版本中即提供了每条链路双向 160 Gbit/s 的带宽，这远高于 PCIe 3.0 的 32 Gbit/s，极大地提升了 GPU 之间的通信速度。

多链路扩展：NVLink 支持多条链路连接，每条链路能够独立传输数据，极大地提高了系统整体的带宽上限。例如 NVLink 2.0 增加了链路数量和单链路带宽，提供了 300 Gbit/s 的双向带宽。

数据一致性协议：NVLink 协议在设计时考虑了数据一致性问题，使得不同 GPU 之间的数据访问可以保证一致性，且 NVLink 2.0 进一步支持了 CPU 和 GPU 之间的数据缓存一致性。

低延迟：相比于 PCIe，NVLink 的数据传输延迟更低，这意味着在高带宽的同时，数据可以更快地传输到目标设备，有助于减少计算等待时间。

3. NVLink 如何满足 GPU 的数据传输需求

NVLink 的主要目的是提升 GPU 和其他计算单元之间的数据传输效率，以满足以下几方面的需求：

3.1 多 GPU 计算中的数据共享需求

在深度学习和科学计算中，常常需要使用多个 GPU 来分担计算负载。例如，在训练一个深度神经网络时，大量的训练数据会被分配到不同的 GPU 上进行处理。每个 GPU 在独立计算梯度和参数更新时，都会需要与其他 GPU 交换计算结果。传统的 PCIe 总线在多 GPU 系统中的数据交换中效率较低，限制了多个 GPU 的协作效率。NVLink 通过多链路高带宽连接，能够大大加速 GPU 之间的数据共享，减少等待时间，提升多 GPU 系统的计算效率。

3.2 CPU 和 GPU 之间的数据传输需求

传统的计算系统中，CPU 通常通过 PCIe 总线与 GPU 通信，受限于 PCIe 带宽，CPU 在数据准备或结果回传阶段常常成为瓶颈。NVLink 2.0 支持 CPU 与 GPU 之间的直接互联，并且引入了数据一致性协议，使得 CPU 可以更快地访问 GPU 内存中的数据，且可以将数据直接缓存到 CPU 的缓存系统中，显著提升 CPU 与 GPU 之间的数据交互性能。这对于需要频繁 CPU-GPU 数据交互的应用（例如数据预处理、模型控制）尤为重要。

3.3 高性能计算对低延迟通信的需求

对于诸如物理仿真、金融建模和分子动力学等高性能计算任务而言，延迟是一个关键因素。PCIe 总线的延迟在高频次的数据交互中会累积并产生显著影响，NVLink 通过优化传输协议和采用更低的延迟设计，使得 GPU 之间、CPU 和 GPU 之间的通信更加快速，有助于减少计算任务中的延迟影响。

4. NVLink 的分层协议设计

NVLink 采用了分层协议设计，由物理层（PL）、数据链路层（DL）和传输层（TL）组成，各层的主要功能如下：

物理层（PL）：物理层负责数据的物理传输，是实现高带宽传输的基础。NVLink 物理层优化了信号传输质量，保证数据能够在更高的带宽下稳定传输。

数据链路层（DL）：数据链路层负责数据的分包和错误校验，确保传输数据的完整性和可靠性。

传输层（TL）：传输层负责管理数据的传输控制和流量管理，协调多个链路之间的数据流转，提高整体传输效率。

这种分层设计让 NVLink 的各个功能模块能够专注于特定的数据处理任务，从而在保证高性能的同时提高传输的可靠性。

5. NVLink 的技术演进与系统优化

NVLink 技术从 1.0 到 2.0 不断发展，带来了更高的带宽、更低的延迟和更强的扩展性。NVLink 2.0 的几个关键改进包括：

带宽增加：单链路带宽从 20 Gbit/s 增加到 25 Gbit/s，支持的链路数量也从 4 条增加到 6 条，从而使整体双向带宽达到 300 Gbit/s。

CPU-GPU 数据一致性：NVLink 2.0 允许 CPU 直接访问 GPU 内存，且支持 CPU 和 GPU 之间的数据缓存一致性。这种改进使得 CPU 在访问 GPU 数据时无需通过复杂的软件机制进行缓存同步，极大提高了数据交互效率。

兼容性拓展：NVLink 2.0 兼容 IBM 的 Power9 CPU，使得 Power 系统可以直接通过 NVLink 连接 GPU，进一步提升了 CPU-GPU 的互操作性能。

6. NVLink 在实际应用中的效果

NVLink 已经在多个领域展现出其优势，以下列举几个典型的应用场景：

深度学习训练：在深度学习的分布式训练中，多个 GPU 需要实时共享大量的数据。NVLink 提供的高带宽和低延迟能够使数据更快地在 GPU 之间传递，大大缩短训练时间。

高性能计算（HPC）：在科学仿真、天气预报等需要高性能计算的领域，NVLink 的高速互联技术使得多个 GPU 和 CPU 可以协同工作，从而加速计算过程。

数据中心应用：在数据中心中，NVLink 可以在多 GPU 系统中提供高效的数据传输机制，提高数据处理效率，满足高并发数据访问需求。

7. NVLink 技术的发展趋势

随着计算需求的不断提升，NVIDIA 也在不断优化 NVLink 技术。例如，未来版本的 NVLink 可能会进一步提升单链路带宽，并增加链路数量，以满足更大规模、多节点计算集群的需求。同时，NVIDIA 还可能与更多 CPU 厂商合作，使得 NVLink 技术能够兼容更多的硬件平台，从而进一步拓展其应用范围。

8. 总结

NVLink 是 NVIDIA 针对 GPU 加速计算需求开发的高速互连技术，旨在解决传统 PCIe 总线带来的数据传输瓶颈问题。通过提供更高的带宽、更低的延迟以及数据一致性支持，NVLink 有效提升了多 GPU 系统的计算性能，满足了深度学习、科学计算、高性能计算等领域的需求。同时，NVLink 技术的分层协议设计和持续改进，使其在未来的 GPU 计算系统中将继续发挥重要作用。