加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 引入系统并行性, MRDIMM实现高效算力
    • 内存领域三大当红技术:MRDIMM、HBM、CXL
  • 相关推荐
申请入驻 产业图谱

AI推理内存革命:突破瓶颈,CPU性能飞跃

原创
2024/12/05
2703
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

一直以来,CPU处理器被看作是保障计算机出色运行的“大脑”。但不能忽略的是,系统内存(DRAM)在提升整体性能方面也扮演着重要角色。随着数据密集型工作负载的需求不断增加,现代服务器面临着将计算能力与内存带宽相匹配的巨大压力。由于服务器处理器核心数量的增长速度超过了内存带宽的提升,这其实意味着,每个核心实际可用的内存带宽相应减少了。

处理器核心与内存带宽失衡会带来什么后果?像AI推理、高性能计算和实时分析等行业,通常需要运行大量的工作负载,内存带宽如果跟不上处理器的提升速度,往往可能会导致计算瓶颈,影响工作负载执行的效率和效果。

在这些挑战下,MRDIMM(多路复用双列直插式内存模块)技术受到推崇。今年9月,英特尔发布的至强6性能核的高端产品6900P系列,就率先应用了8800MT/s的MRDIMM内存,它能够以即插即用的方式大幅提升性能。

引入系统并行性, MRDIMM实现高效算力

数据中心,最常用的内存模块(称为RDIMM)就像现代处理器一样,具有板载并行资源,只是两者的使用方式不同。

事实上,MRDIMM从原型设计到如今正式发布已经有很多年了。最早被定义为专门针对科学计算和AI场景,针对这些场景,MRDIMM可以带来非常杰出的表现,为数据中心“锦上添花”。

据英特尔一位技术专家介绍,之所以在至强6这一代支持MRDIMM,首先要结合收益,8800MT/s的规格可以与英特尔至强6性能核处理器的性能相匹配,可以说MRDIMM的推出“正当其时”。

同时,要和现有DDR5实现兼容。英特尔在产品原型、定义和推出等各个阶段都和业内很多RDIMM厂商进行了深度合作,目前三星、SK海力士美光都推出了相应产品。从性能来讲,与DDR5最高端的6400MT/s、主流的4400MT/s或4800MT/s相比,该方案在带宽、延时等方面都有了显著提升。

可以通俗理解该方案的形成:RDIMM通常有一个或两个Rank(阵列),在两个Rank的情况下,普通DRAM会分开访问。也就是说,一个读写的Cycle,只有一个阵列是活跃的,另外一个阵列在闲置。而MRDIMM会让两个阵列同时活跃起来,利用片上的数据缓冲区实现128字节在两个阵列的同步操作。

这个原理听起来似乎并不复杂,不过英特尔技术专家解释说,在工程实现时需要克服很多障碍。比如,片上的数据缓冲区就带来了一定挑战,DRAM颗粒已经非常快了,在此基础之上还增加了数据缓冲区来处理128字节的数据传输,并且需要联动控制器,以及满足RAS的需求、保证数据的完整性和一致性等。这并不只是简单地把数据分发到两个Rank,而是需要在整个工程实现过程中进行大量创新和协作。

英特尔数据中心与人工智能(DCAI)事业部内存开发资深首席工程师George Vergis,回想起灵感闪现的一瞬间时说道,“当时我们想到,既然并行资源没被使用,那为什么不把它们集中起来呢?”于是,George Vergis便提出一个创新方案,即在DRAM模块上放置一个小型接口芯片——多路复用器(Mux),从而让数据可以在同一个时刻跨两个内存阵列进行传输。

正是通过多路复用缓冲器整合了每个MRDIMM的电力负载,让接口能够运行得比RDIMM更快。由于能够同时并行访问两个内存阵列,带宽也翻倍了。

由此就诞生了英特尔有史以来最快的系统内存,峰值带宽提高近40%,从每秒6400MT跃升至每秒8800MT,而过去则需经过多次迭代才能实现。

目前,MRDIMM已经纳入JEDEC标准,按照当前的路线图,预计未来将在8800MT/s的基础上翻倍,以更好地满足下一代处理器的卓越性能。随着核数的增多、处理能力和主频的提升,相应地需要打破“内存墙”、突破内存的容量和性能问题,也需要有不同的技术来满足未来数据中心建设的需求。

内存领域三大当红技术:MRDIMM、HBM、CXL

当前,内存领域相关的前沿技术以MRDIMM和HBM为主要代表。英特尔技术专家表示,MRDIMM的目标是性能提升,覆盖了32GB、48GB、64GB、96GB、128GB和256GB这些常见的内存容量。与市场上已经实现512GB甚至更大容量的DDR5相比,MRDIMM更注重提高内存带宽和降低延迟,以满足高性能需求。此外,MRDIMM的优势在于它兼容DDR5插槽,有更好的通用性。对于服务器整机设计,包括散热设计等,都可以统一进行考虑,并采用统一的处理方式。

“至于HBM,通常是通过封装工艺集成在CPU、GPU或ASIC芯片中,相对来说通用性没有那么强,成本也会比较高,且容量基本上都会在96GB以内,这是目前主流的情况”,该技术专家表示,“不过考虑到AI需求,当前一些厂商在HBM的投入非常大,显示出该技术在特定领域的重要性,包括英特尔至强Max系列CPU、以及Gaudi都采用了HBM。”

将MRDIMM与HBM进行对比,该技术专家认为,前者单条可以达到256GB,意味着相对HBM,它容量更大、成本更低。在AI推理或是调优等需要更大内存容量的场景下,比如RAG,采用MRDIMM既有高性能表现(容量更大),同时也可以处理更加通用的场景,针对AI或者科学计算的场景更适用,目前MRDIMM主要还是用于服务器端对内存带宽要求较高的场景。

除了MRDIMM和HBM之外,CXL作为内存领域一种兼具灵活性和高性价比的解决方案,正逐渐受到市场的青睐。在远端,CXL的内存池技术允许使用成本较低的技术,如DDR4,来支撑业务系统;在近端,则可以通过CXL memory expander实现本机扩展,进一步增强了系统的扩展性和成本效益。

据介绍,实际客户测试显示,在经过优化的场景下,CXL技术能够达到90%-95%的性能指标。近期的OCP China(开放计算中国峰会)上,英特尔和阿里的联合发布就展示了阿里是如何有效应用了CXL技术。该技术专家认为,这表明CXL的生态系统正在逐步完善,英特尔和产业伙伴的核心目标是在满足性能服务水平协议(SLA)的基础上,提供更具性价比的方案。

他强调,相较于MRDIMM和HBM,CXL的最大优势在于提供高性价比的方案,连接相对廉价的内存,而非追求极致的带宽和性能。这使得CXL在多种应用场景中,尤其是在需要大容量内存和成本效益比的AI推理或科学计算场景中,更具吸引力。随着生态系统的不断完善,CXL有望成为内存技术领域的主流选择之一。

谈及数据中心面临的内存瓶颈,该技术专家表示目前可以从两方面来解决:一是内存带宽,MRDIMM目前的路线图非常明确,未来带宽会再次翻倍,容量方面随着介质本身的演进也会增加;二是内存容量,这是一个与应用场景相关的问题。对于内存容量扩展的场景,在不考虑极致性能的情况下,CXL可能是更好的选择。

总之,MRDIMM定位于并非针对计算密集型或存储密集型的应用,而是专为内存带宽敏感型的应用而设计。对于那些对内存带宽不敏感,主要依赖计算得出结果的应用,MRDIMM可能不会发挥关键作用。然而,在内存带宽敏感型的应用场景中,如内存数据库、科学计算和AI等,MRDIMM将扮演至关重要的角色。“MRDIMM的价值在于其对内存带宽的优化,而非单纯的计算或存储能力”,该技术专家强调。

英特尔

英特尔

英特尔在云计算、数据中心、物联网和电脑解决方案方面的创新,为我们所生活的智能互连的数字世界提供支持。

英特尔在云计算、数据中心、物联网和电脑解决方案方面的创新,为我们所生活的智能互连的数字世界提供支持。收起

查看更多

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录