日前,英特尔正式发布至强6性能核处理器(代号Granite Rapids),旨在针对AI、数据分析、科学计算等计算密集型业务提供更佳性能。
在AI迅速席卷市场的前几年,CPU在适应变革方面可能未能完全满足市场期待。新一代处理器将给市场带来哪些改变?<与非网>采访了英特尔的多位生态合作伙伴,所获评价都非常积极,包括:“让英特尔重回巅峰”、“给合作注入更大信心”、“改变部分用户的观望心态”……本文就来看看至强6性能核处理器的强大之处,以及它给AI、数据中心产业带来的影响。
处理性能大幅升级,满足更广泛需求
已宣布上市的至强6900P系列处理器(代号Granite Rapids-AP),具备三个计算单元和两个I/O单元,最高可配备128个内核,支持每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率高达每秒24 GT),96条PCIe5.0或64条CXL 2.0通道、504MB的L3缓存,支持FP16数据格式的英特尔高级矩阵扩展(英特尔AMX),可为AI和科学计算等内存带宽敏感型工作负载提供MRDIMM选择,且新增对CXL 2.0的支持。
约在2年前,市场上一个主流服务器所搭配的至强处理器约为24-48核,与之相比,至强6900P最高128个内核的配备,大幅提升了CPU内核数量以及整体性能,可以说是“跨越式”的表现。根据已透露的测试,至强6900P平台在数据库、科学计算等关键应用负载的表现是上一代产品的2.31倍-2.5倍,AI应用性能是其1.83倍-2.4倍。
芯片架构是至强6性能核处理器的独特之处,它采用了计算芯片单元与I/O芯片单元解耦的分离式模块化设计,以Chiplet的形式封装在一起。计算单元中包含了x86内核、内存控制器和缓存。I/O单元中包含了PCle、CXL、UPI等通用协议,也包括了英特尔独有的加速器。通过不同的排列组合,使得它可以灵活组合不同数量的计算单元,实现核心数量的扩展及内存和I/O的同步强化,保证更优的整体性能和能效。
在AI加速方面,从第四代至强处理器开始,英特尔就为AI加速推出了专属指令集——高级矩阵扩展(英特尔AMX)。通过这个指令集,CPU能够更好地支持大模型推理计算。在最新一代的至强处理器中,该指令集也进行了升级。AI工作负载方面,至强6性能核处理器可运行12种工作负载,覆盖通用计算、数据库、科学计算等,其中包括Llama2、Llama3 大模型等。
与第五代至强可扩展处理器相比,至强6处理器从64核升级到128核,平均单核性能提升高达1.2倍,平均每瓦性能提升高达1.6倍,同等性能水平下平均节省30%的TCO。在运行70亿参数Llama2 大模型推理时,在AMX加速的情况下,实现了3.08倍的性能提升。
存力升级,多项新技术赋能
算力需要平衡的升级,至强6性能核处理器除了核数多、计算性能提升,在内存方面也进行了较大的改进,主要亮点有:
更快的内存——MRDIMM。英特尔两年前就开始和业界领先厂商就MRDIMM展开合作,目标就是能够率先在服务器领域推出支持MRDIMM技术的服务器。MRDIMM利用数据缓冲区,实现了两个列的同步操作,从而允许一次向 CPU 传输 128 字节的数据;而传统DRAM 模块一次只能传输 64 字节。英特尔至强6性能核处理器,通过使用标配6400MT/s和更快的MRDIMM内存结合的方式,可以处理对内存非常敏感的工作负载,包括科学计算、AI等。
更大的内存——CXL。至强6在CXL方面的演进同样值得关注,第五代至强正式引入CXL 2.0,用以扩展内存容量和带宽。至强6已经可以支持3种CXL内存扩展模式:CXL Numa Node、CXL Hetero Interleaved、Flat Memory。
从一系列性能规格就可以看出,新一代至强6性能核处理器在核心数量、内存带宽、AI加速功能方面明显升级,这对计算密集型工作负载非常关键,可以覆盖从边缘到数据中心再到云环境中的各种AI挑战。通过采用模块化SoC架构设计,至强6性能核处理器能够以丰富的产品系列,为云服务提供商、OEM、ODM、ISV等提供灵活性和可扩展性。
释放通用CPU在AI边缘推理中的价值
作为算力的载体,数据中心在过去近20年中,通过不断的演进与重构见证和推动了科技的发展。如今,在算力需求日益飙升且多样化的当下,至强6性能核处理器将给数据中心带来哪些独到价值?又将如何进一步释放算力价值?
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立认为,通用CPU进行AI推理是一个较大的机遇。尽管大模型规模在不断增长,但是行业专用模型可能并不需要如此庞大的模型,对于许多行业用户来说,他们实际上更倾向于使用10B以下的行业专用模型,并在这些模型中构建专属的知识和数据库。根据一些客户反馈,至强6性能核处理器进行Llama2、Llama3推理,性能已足够应对。此外,在一些搭载加速器或GPU的AI服务器中,绝大部分机头选用的也都是英特尔CPU处理器,英特尔与主流的GPU厂商、AI生态合作伙伴都建立了良好的合作关系,共同定义至强规格以提供最佳的机头体验。
新华三集团计算存储产品线副总裁刘宏程认为,至强6性能核处理器相较于上一代的性能提升并非细微改进,而是翻天覆地的变化,这可能会改变用户以往“再等等”的观望心态,这种显著的性能增长有望加速整个行业向新一代技术切换的进程。
他指出,过去业界常常用 “通用服务器”和“GPU服务器” 来进行区分,但在这一代服务器上,实现了融合的基础设施,即能够同时兼顾通用计算和GPU加速的需求。这种融合将加速各行业对新技术应用的推动,因为用户不再需要在不同类型的服务器之间做出选择,而是可以更加灵活地应对多样化的计算需求。
由于大模型应用到具体行业,往往需要结合企业的私有数据进行微调与推理。他认为融合架构比单一GPU服务器更适合这类需求,因为对于私域小规模的训练和推理任务来说,融合架构的投资回报率更高,能够更有效地利用资源。当推理需求成为主要应用场景时,至强6性能核处理器凭借出色的推理性能,可能成为一个更加经济高效的选择。
超聚变服务器产品总经理朱勇谈到,面对千行百业的应用,该处理器可以做到“一芯多用”,既可以进行通用计算、又可以做边缘推理,目前已经可以应用在10B大模型的推理场景,这给客户带来的优势是能够降低TCO。他强调,“百模大战”的终极挑战就是商业变现问题,一个AI应用的成熟落地离不开模型推理,而基于通用场景的CPU推理,能够给客户带来较大的商业价值。
宁畅副总裁兼首席技术官赵雷评价,新一代至强6性能核处理器是英特尔“重回巅峰”之作,让他觉得英特尔又重新占领、并且拿到了市场的主导权,给他注入了更大信心。
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉补充,大模型的投资热潮仍在持续,接下来,整个行业将会关注如何基于通用大模型发展行业特定的大模型,这也意味着AI大模型第二场发展机遇刚刚开始,且潜力无限。她强调,对于具体的行业应用来说,推理场景不仅与行业相关,而且与每个行业的具体场景密切相关。因此,未来算力的需求不仅被极大地放大,而且呈现出多样化的特点。在这样的趋势下,“性能”和“成本”必须是一个平衡考虑,而至强6性能核处理器正是基于对未来趋势的洞察而诞生的。
推动液冷产业加速发展
更强算力也让数据中心面临能耗和散热挑战。立足于此,英特尔发起了英特尔中国数据中心液冷创新加速计划,希望携手行业伙伴突破油类单相浸没散热能力有限的技术难题,进一步推动冷板式液冷整体解决方案验证,同时还联合生态力量推动UQD互换验证测试,从技术创新、构建统一行业标准两方面“双管齐下”,降低数据中心液冷使用成本、增强可靠性,为液冷技术的规模化应用保驾护航。
联想基础设施业务群服务器产品部总经理周韬分享,基于至强6性能核的联想ThinkSystem SC750 V4服务器,是支持至强性能核的高密度服务器,主要是采用了联想海神的温水水冷技术,可以做到100%散热都可以通过水冷去覆盖,测试结果显示在生物化学、气象这些应用方面都有出色性能。
赵雷谈到,随着CPU算力越来越强,核数从上一代64核升级到现在128核,它的能耗也相应从300瓦增加到500瓦,这也客观推动了液冷的发展和快速落地。以往350瓦以下的CPU可以通过风冷解决散热问题,但新一代CPU则需要更高效的散热方案,如液冷。这一转变不仅推动了液冷技术的进步,包括冷板、浸没式冷却等,还带动了整个液冷基础设施的发展。
赵雷强调,液冷技术的普及将对电力基础设施提出新的要求,因为随着散热系统的升级,供电能力可能成为新的瓶颈。因此,电力系统的改进也将成为必要。总的来说,CPU技术的进步不仅促进了液冷技术的快速发展,还将拉动整体基础设施的升级优化。