AI推理内存革命：突破瓶颈，CPU性能飞跃

一直以来，CPU 处理器被看作是保障计算机出色运行的“大脑”。但不能忽略的是，系统内存（DRAM）在提升整体性能方面也扮演着重要角色。随着数据密集型工作负载的需求不断增加，现代服务器面临着将计算能力与内存带宽相匹配的巨大压力。由于服务器处理器核心数量的增长速度超过了内存带宽的提升，这其实意味着，每个核心实际可用的内存带宽相应减少了。

处理器核心与内存带宽失衡会带来什么后果？像AI推理、高性能计算和实时分析等行业，通常需要运行大量的工作负载，内存带宽如果跟不上处理器的提升速度，往往可能会导致计算瓶颈，影响工作负载执行的效率和效果。

在这些挑战下，MRDIMM（多路复用双列直插式内存模块）技术受到推崇。今年9月，英特尔发布的至强6性能核的高端产品6900P系列，就率先应用了8800MT/s的MRDIMM内存，它能够以即插即用的方式大幅提升性能。

引入系统并行性， MRDIMM实现高效算力

在数据中心，最常用的内存模块（称为RDIMM）就像现代处理器一样，具有板载并行资源，只是两者的使用方式不同。

事实上，MRDIMM从原型设计到如今正式发布已经有很多年了。最早被定义为专门针对科学计算和AI场景，针对这些场景，MRDIMM可以带来非常杰出的表现，为数据中心“锦上添花”。

据英特尔一位技术专家介绍，之所以在至强6这一代支持MRDIMM，首先要结合收益，8800MT/s的规格可以与英特尔至强6性能核处理器的性能相匹配，可以说MRDIMM的推出“正当其时”。

同时，要和现有DDR5实现兼容。英特尔在产品原型、定义和推出等各个阶段都和业内很多RDIMM厂商进行了深度合作，目前三星、SK海力士、美光都推出了相应产品。从性能来讲，与DDR5最高端的6400MT/s、主流的4400MT/s或4800MT/s相比，该方案在带宽、延时等方面都有了显著提升。

可以通俗理解该方案的形成：RDIMM通常有一个或两个Rank（阵列），在两个Rank的情况下，普通DRAM会分开访问。也就是说，一个读写的Cycle，只有一个阵列是活跃的，另外一个阵列在闲置。而MRDIMM会让两个阵列同时活跃起来，利用片上的数据缓冲区实现128字节在两个阵列的同步操作。

这个原理听起来似乎并不复杂，不过英特尔技术专家解释说，在工程实现时需要克服很多障碍。比如，片上的数据缓冲区就带来了一定挑战，DRAM颗粒已经非常快了，在此基础之上还增加了数据缓冲区来处理128字节的数据传输，并且需要联动控制器，以及满足RAS的需求、保证数据的完整性和一致性等。这并不只是简单地把数据分发到两个Rank，而是需要在整个工程实现过程中进行大量创新和协作。

英特尔数据中心与人工智能（DCAI）事业部内存开发资深首席工程师George Vergis，回想起灵感闪现的一瞬间时说道，“当时我们想到，既然并行资源没被使用，那为什么不把它们集中起来呢？”于是，George Vergis便提出一个创新方案，即在DRAM模块上放置一个小型接口芯片——多路复用器（Mux），从而让数据可以在同一个时刻跨两个内存阵列进行传输。

正是通过多路复用缓冲器整合了每个MRDIMM的电力负载，让接口能够运行得比RDIMM更快。由于能够同时并行访问两个内存阵列，带宽也翻倍了。

由此就诞生了英特尔有史以来最快的系统内存，峰值带宽提高近40%，从每秒6400MT跃升至每秒8800MT，而过去则需经过多次迭代才能实现。

目前，MRDIMM已经纳入JEDEC标准，按照当前的路线图，预计未来将在8800MT/s的基础上翻倍，以更好地满足下一代处理器的卓越性能。随着核数的增多、处理能力和主频的提升，相应地需要打破“内存墙”、突破内存的容量和性能问题，也需要有不同的技术来满足未来数据中心建设的需求。

内存领域三大当红技术：MRDIMM、HBM、CXL

当前，内存领域相关的前沿技术以MRDIMM和HBM为主要代表。英特尔技术专家表示，MRDIMM的目标是性能提升，覆盖了32GB、48GB、64GB、96GB、128GB和256GB这些常见的内存容量。与市场上已经实现512GB甚至更大容量的DDR5相比，MRDIMM更注重提高内存带宽和降低延迟，以满足高性能需求。此外，MRDIMM的优势在于它兼容DDR5插槽，有更好的通用性。对于服务器整机设计，包括散热设计等，都可以统一进行考虑，并采用统一的处理方式。

“至于HBM，通常是通过封装工艺集成在CPU、GPU或ASIC芯片中，相对来说通用性没有那么强，成本也会比较高，且容量基本上都会在96GB以内，这是目前主流的情况”，该技术专家表示，“不过考虑到AI需求，当前一些厂商在HBM的投入非常大，显示出该技术在特定领域的重要性，包括英特尔至强Max系列CPU、以及Gaudi都采用了HBM。”

将MRDIMM与HBM进行对比，该技术专家认为，前者单条可以达到256GB，意味着相对HBM，它容量更大、成本更低。在AI推理或是调优等需要更大内存容量的场景下，比如RAG，采用MRDIMM既有高性能表现（容量更大），同时也可以处理更加通用的场景，针对AI或者科学计算的场景更适用，目前MRDIMM主要还是用于服务器端对内存带宽要求较高的场景。

除了MRDIMM和HBM之外，CXL作为内存领域一种兼具灵活性和高性价比的解决方案，正逐渐受到市场的青睐。在远端，CXL的内存池技术允许使用成本较低的技术，如DDR4，来支撑业务系统；在近端，则可以通过CXL memory expander实现本机扩展，进一步增强了系统的扩展性和成本效益。

据介绍，实际客户测试显示，在经过优化的场景下，CXL技术能够达到90%-95%的性能指标。近期的OCP China（开放计算中国峰会）上，英特尔和阿里的联合发布就展示了阿里是如何有效应用了CXL技术。该技术专家认为，这表明CXL的生态系统正在逐步完善，英特尔和产业伙伴的核心目标是在满足性能服务水平协议（SLA）的基础上，提供更具性价比的方案。

他强调，相较于MRDIMM和HBM，CXL的最大优势在于提供高性价比的方案，连接相对廉价的内存，而非追求极致的带宽和性能。这使得CXL在多种应用场景中，尤其是在需要大容量内存和成本效益比的AI推理或科学计算场景中，更具吸引力。随着生态系统的不断完善，CXL有望成为内存技术领域的主流选择之一。

谈及数据中心面临的内存瓶颈，该技术专家表示目前可以从两方面来解决：一是内存带宽，MRDIMM目前的路线图非常明确，未来带宽会再次翻倍，容量方面随着介质本身的演进也会增加；二是内存容量，这是一个与应用场景相关的问题。对于内存容量扩展的场景，在不考虑极致性能的情况下，CXL可能是更好的选择。

总之，MRDIMM定位于并非针对计算密集型或存储密集型的应用，而是专为内存带宽敏感型的应用而设计。对于那些对内存带宽不敏感，主要依赖计算得出结果的应用，MRDIMM可能不会发挥关键作用。然而，在内存带宽敏感型的应用场景中，如内存数据库、科学计算和AI等，MRDIMM将扮演至关重要的角色。“MRDIMM的价值在于其对内存带宽的优化，而非单纯的计算或存储能力”，该技术专家强调。

AI推理内存革命：突破瓶颈，CPU性能飞跃

引入系统并行性， MRDIMM实现高效算力

内存领域三大当红技术：MRDIMM、HBM、CXL

相关推荐