在人工智能风潮驱动下,全球内存半导体生产商之间的竞争急速升温,以开发基于计算快速链接 (CXL) 的内存解决方案应运而出。这项被誉十年一遇的技术,CXL将成为实现下一代数据中心最佳资源利用的重大变革者,对改善数据中心架构前程无量。在包括超大规模制造商、系统OEM、平台和模块制造商、芯片制造商在内的众多行业参与者的支持下,CXL的快速发展显示了其所蕴含的巨大潜力。
ChatGPT等应用开启AI新时代。AI大模型对高性能存储芯片的需求,导致全球数据生成、储存、处理量将呈等比级数增长。然而,当前计算系统的性能和效率跟不上AI优化芯片的需求。
与此同时,现有服务器架构面临多重内存扩展挑战,缺乏高效共享内存资源的能力。存储器带宽和容量未能跟上CPU性能增长步伐,两者之间出现了性能上的鸿沟,因此人们开始把目光转向性能更高的DRAM。
二十一年前,英特尔公布了一种取代PCI总线的第三代I/O技术——3GIO技术,也就是我们熟悉的PCl-e。凭借高性能、高扩展性、高可靠性及出色的兼容性,PCl-e几乎取代了以往所有的内部总线(包括AGP和PCI),成为当时众望所归的技术标准。
随着存储成本不断增加,传统的PCI-e技术乏善可陈,工作负载变得越来越具有挑战性,而优化数据中心使用内存的方式可以提高性能、降低堆栈复杂性和系统成本。CXL 为我们提供了一种跨CPU和加速器共享这些内存资源的方法,以提高性能、效率并降低总体拥有成本。
CXL技术,全称 Compute Express Link ™ (CXL ™ ) ,由Intel2019年开发并推出,是一种行业支持的用于处理器、内存扩展和加速器的高速缓存一致性互连技术。CXL联盟定义了这样的标准:支持各种各样存储器,也支持各种异构计算和芯片,包括:
第一种常用于高速缓存设备,如网卡;
第二种CPU、GPU、DPU、 SoC、各种AI加速器,甚至各种FPGA加速器;
第三种是内存扩展控制器,包括DRAM、新兴的内存,甚至NAND闪存。通常作为内存缓冲器,常用作内存带宽或是容量的扩展;
并允许CPU与设备在相同的内存区域上工作,从而减少数据移动、提高性能以及电源效率。
异构计算的世界让人眼花缭乱、任务繁重,CXL就是确保他们保持低延迟连接和内存数据一致性,目标就负责减负,减轻数据中心的压力,以更少的资源做更多的事情。这对于大容量工作负载尤其重要,例如 AI 训练,其中更多的数据通常等同于更高的准确性,以及日益电动化的车辆、智能工厂、药物发现和气象图等所需的大规模模拟。
相比已经被终结的英特尔傲腾持久内存(Pmem),CXL更加开放,并邀请对手和伙伴组建了CXL 联盟。这是一个开放的行业标准组织,旨在共同合作开发CXL开放互连技术并制定相应规范,促进新兴使用模型的性能突破,同时支持数据中心加速器和其他高速增强功能的开放生态系统。
CXL联盟于2019年3月由创始成员阿里巴巴集团、思科系统、戴尔易安信、Meta、谷歌、惠普企业(HPE)、华为、英特尔公司和微软组成。此后,AMD、NVIDIA、三星、Arm、瑞萨、IBM、Keysight、Synopsys、Marvell等以各种身份加入。
2021年,Gen-Z联盟宣布将其所有技术规格和资产转让给CXL联盟。2022年8月OpenCAPI联盟宣布,与CXL联盟达成协议,将OpenCAPI和OMI规范以及OpenCAPI联盟的资产转让给CXL联盟。Gen-Z技术和OpenCAPI技术相继加入,意味着CXL联盟将一统I/O互连标准。
在过去不到四年里,CXL大胆向前,到现在已经发表了1.0/1.1、2.0、3.0三个不同的版本。CXL 为底层采用 PCIe 标准,在该标准巨大行业发展势头上带来了更多功能变革。
2019年CXL刚推出,PCIe 5.0是最新的标准,CXL 1.0、1.1以及之后的2.0代都使用了PCIe 5.0的32 GT/s信令。同时Specification 3.0被引入。CXL1.0规范解决了节点级互连的问题以及处理器与其连接设备之间的互连。CXL2.0带来了CXL交换机和内存池化的功能,通过支持跨多个节点的内存等资源池,将CXL提高到了机架级别。
CXL 3.0于2022年发布,采用PCIe 6.0作为其物理接口。CXL 3.0 与 PCIe 6.0 一样,使用 PAM4 将信号速率提高到 64 GT/s。CXL3.0在前代技术基础上做了进一步扩展,带宽提升2倍,并且简化了一些复杂的标准设计简单化,确保了易用性。并在物理层面和逻辑层面作了革新:CXL3.0将每通道吞吐量提升了一倍,达到64GT/s;CXL3.0扩展了标准逻辑能力,允许更复杂的连接拓扑。
CXL规范的推出速度非常快,在CXL 1.0技术还未准备就绪,CXL 2.0技术就兵临城下,新规范要求在总线的SerDes级别提供内置支持,从而实现和远程内存组的低延迟连接。鉴于财力雄厚的公司对 CXL 的支持日益高涨,该标准普及建设似有远大前程。但其快速发展也让 IP 开发人员难以快速从一个版本的标准转向下一个版本。因此,像AMD不得不在新处理器的设计后期重新设计了CXL部分功能,还融入了包括持久内存和RAS报告等功能。
CXL 2.0 引入了具有单个和多个逻辑设备的内存池 图源:Cadence
CXL 3.0 提供类似结构的多级交换实现。图源:Cadence
三代CXL对比 图源:CXL联盟
2020年曾有业内人士预言要到2024年CXL才可能有落地产品,而实际上2022年就有初代产品问世,相关的合作伙伴也在找相应的厂商对一些工程样品搭建环境进行开发测试,从架构、IP到芯片,CXL的生态正在快速搭建。
Arm是最早布局CXL的联盟成员之一。基于Arm Neoverse平台的服务器创新使CPU内核数量和性能到达了极限。而CXL使内存创新成为可能,有望摆脱内存得密度和带宽瓶颈的限制。从Neoverse的第二代的产品中,全部都加入了CXL 2.0的支持,比如Neoverse V2、N2和E2等等。而到了下一代产品中,这三大产品线在提升性能和效率的同时,也会增加对CXL 3.0的支持。在在未来计算和存储方面,Arm围绕机器学习、矢量计算、安全、自定义指令和CXL方面进行重点投资。
有大量客户在下一代SoC、加速器、SmartNIC 和 GPU 以及内存扩展设备中采用 CXL。而随着CXL 3.0规范的发布,需要使用能够满足最新要求的工具,确保早期采用者可以成功构建和验证他们的系统级芯片。
2022年8月,Cadence宣布推出业界首个针对 Compute Express Link(CXL)3.0 标准的验证 IP(VIP)和系统级 VIP。集成PCIe 6.0 ,提供了从IP到SoC的完整解决方案,助力用户成功设计高性能数据中心应用。
作为很早就开始参与 CXL 相关工作的贡献者,Synopsys可以快人一步获悉最新的规范。2019年9月,Synopsys提供业界首款CXL IP核解决方案,在数据密集型芯片中实现突破性性能新思计算快速链接。CXL IP由控制器、PHY、IDE安全模块和验证IP组成,为AI、机器学习和云计算应用提供安全、低延迟和高带宽的互连。Synopsys已经向多个客户交付了支持 IDE 的CXL 2.0和 3.0解决方案,包括适用于下一代SSD和高级内存应用的解决方案,这些解决方案在客户产品中经过硅验证,并在硬件中证实与第三方具有互操作性。
致力于使数据传输更快更安全,IP供应商Rambus于2021年6月推出了CXL内存互连计划,在与包括云计算、系统和内存公司在内的整个生态系统合作,以加快CXL内存互连解决方案的开发和应用。为加速了下一代数据中心CXL处理解决方案的开发,Rambus于22年5月收购领先的电子设计公司Hardent。互补资源将加速Rambus的路线图并扩大在人工智能与机器学习领域的的影响力。
在AI的大时代下,随着CXL的应用渗透率提升,服务器也从传统围绕CPU的设计思路转向为以DRAM为中心的架构。三星将CXL视为解决内存扩展挑战的最有前景的技术,不遗余力捣鼓DRAM。2022年5月,三星电子开发出业界首款 512 GB Compute Express Link (CXL) DRAM 模块,这是迈向 CXL 商业化的重要一步,官方数据显示,与之前的三星 CXL 产品相比,实现极高的内存容量和低延迟,用于下一代大容量企业服务器和数据中心。2022年12月,三星电子与互联网公司 Naver 合作,为数据中心开发定制人工智能芯片。三星将使用其计算存储、内存处理 (PIM) 和内存附近处理 (PNM) 内存技术以及硬件的 Compute Express Link技术来加速大量 AI 工作负载。并与 Naver 支持2000 亿个参数的超大规模语言模型Clova相结合,创造出将大规模人工智能的性能和功率效率提升到一个新水平的解决方案。
图源:DIGITIMES
戴尔科技集团是CXL联盟的董事会成员。作为全球领先的端到端解决方案提供商,Dell PowerEdge服务器为人工智能和云计算等各类工作负载提供强大算力。2022年展示了其PowerEdge MX7000模块化服务器与Liqid合作,从而在系统中增加PCIe 4.0连接的GPU和其他加速器,并为更快的PCIe 5.0、CXL和外部池化内存开辟道路。2023年2月国内正式发布基于该处理器的全新一代Dell PowerEdge服务器,采用了多种新技术,包括DDR5、PCIe 5.0以及CXL技术,新技术的采用将提升服务器的综合能力,对于内存密集型和IO密集型场景也会有更大价值。
PowerEdge MX7000模块化服务器 图源:戴尔
Marvell正在进行的以数据中心为重点的投资,包括其CXL解决方案。Marvell已于去年5月收购了先进CXL技术领先开发商Tanzanite,以加强CXL开发计划。Tanzanite CXL技术有助于加速Marvell实现完全可组合的云基础架构组合的全覆盖,包括计算、光电、网络、安全和存储,将为新兴的元宇宙和下一代AI应用提供更高水平的数据中心效率、可扩展性和灵活性。
AMD正在更高性能更低延迟以及内存扩展功能上发力。 在去年AMD已经明确将在五年内把CXL技术引入消费级CPU;其中,AMD将确保系统内存与其他存储设备可以通过CXL协议,在同一总线上进行连接通信。其最新的数据中心处理器,代号为Genoa的4.4GHz9004芯片拥有多达96个内核并支持CXL1.1内存接口。AMD 将于2023年内推出带有 3D V-Cache 的 EPYC Genoa-X 系列服务器处理器,具备超大 3D V-Cache 缓存以及 Zen 4 内核,将支持 DDR5 内存以及 PCIe Gen5 和 CXL 接口。
SK海力士从CXL联盟成立之初就积极参与其中,主导了CXL存储器的发展。SK海力士已于2022年10月成功开发行业首款将计算功能与CXL存储器相结合的CMS,拟搭载于下一代服务器平台上。并与同年8月宣告开发首款基于DDR5 DRAM的CXL存储器样品,支持PCIe 5.0 x8通道,配备了CXL控制器,使用了DDR5标准DRAM,计划于2023年投入量产。为了进一步扩大CXL存储器生态系统,SK海力士开发出专用的异构存储器软件开发套件,计划于23年第4季度作为开放源代码发布,这将有助于用户更有效地使用SK海力士的CXL存储器。
图源:SK海力士
要通过CXL实现内存扩展,还需要靠先进的控制器芯片。澜起科技是一家国际领先的数据处理及互连芯片设计公司,2022年5月发布全球首款CXL内存扩展控制器芯片(MXC)并于2023年1月成功量产。该芯片支持JEDEC DDR4和DDR5标准,同时也符合CXL 2.0规范,支持PCIe5.0的速率。可为CPU及基于CXL协议的设备提供高带宽、低延迟的高速互连解决方案,可大幅扩展内存容量和带宽,满足高性能计算、人工智能等数据密集型应用日益增长的需求。
澜起科技的MXC芯片,还被三星青睐,用于其首款512GB CXL DRAM内存中,海力士发布的DDR5 DRAM CXL内存,同样用到了MXC芯片。美光也推出基于该芯片的CXL内存模组。澜起科技反向推销科技巨头朝着将CXL互连技术推向内存市场的目标迈出了关键一步。
CXL内存扩展控制器芯片(MXC)图源:澜起科技
在AI浪潮催化下,几乎每个人都在构建具有CXL功能的服务器。过去三年越来越多内存和服务器 SoC 公司都表示支持CXL,根据一些内存制造商的预测,到2030年,基于CXL的应用程序的总潜在市场预计将达到200亿美元。但CXL仍面临以下挑战:
尽管共享资源具有吸引力,但无论标准进展得有多快,广泛采用都需要时间。完全支持CXL拓扑和带宽的产品推向市场是一个较慢的过程;
数据中心在采用任何新技术时都比较保守,任何故障都可能导致数百万美元的停机时间因此不免有人猜忌和观望CXL;
CXL未来在数据中心的扩散仍面临缺乏验证和验证基础设施的挑战。这些解决方案在进行生产部署之前需要与OEM和云服务提供商一起进行严格的功能和性能验证过程。CXL需要为希望同时启动硬件软件验证、软件启动和合规性以实现其上市时间目标的公司提供更多软件优先方法的范例。
CXL将随着未来功能强度而普及化,也需要在云端业务大规模导入在产业中。