数据中心压力陡增，英特尔“杀手锏”CPU掀起效率革命！

英特尔近日重磅发布了首款配备能效核的至强6处理器（代号Sierra Forest），为高密度、横向扩展工作负载带来性能与能效的双重提升。

英特尔CEO帕特·基辛格(Pat Gelsinger)在台北举行的Computex上，高调指出了至强6的重要意义，他表示，“至强6在我们的竞争力上是向前迈出的一大步，不仅保住了我们的市场，而且重新获得了我们失去的一些市场份额机会。”至强6有哪些优点？如何能够“担此重任”？它对AI大模型竞争激烈的当下有哪些重要意义？

至强首次拆分为两大系列：P核/性能核和E核/能效核

以ChatGPT为代表的生成式AI在迅速演进。几个月前，我们与它的交互还是文字对话，但近来ChatGPT升级后，不仅支持语音交互，而且沟通过程中被“打断”，也能迅速做出反应，给出满意的答复。

这种非常实时的、始终处于激活状态下的AI应用，对算力带来的挑战实际是巨大的，毕竟数据中心不能一味扩张，效率、TCO、能源消耗等等都是需要直面的重大问题。

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立指出，AI技术架构内的设施非常昂贵，以更好的硬件架构提升效率、降低成本，是非常重要的方向。

至强6首次对至强产品线进行了拆分，分为P核/性能核和E核/能效核。针对计算密集型和AI工作负载等应用，比如大数据、AI推理、游戏等，用P核处理器；E核的优势则是在微服务、云原生、数据库、网络等方面，主要针对高核心密度和规模扩展任务所需的高效能进行了优化。两者架构兼容，共享软件栈和开放的软、硬件供应商生态。

以企业服务器5年升级更新一次为例，将至强6的E核/能效核与第二代至强相比，在媒体处理、网络处理、微服务等方面基本可以实现2-3倍的性能提升，帮助企业用户实现更好的性能与能效平衡。

P核/性能核主要面向云厂商、互联网企业等，由于他们所提供的云服务需要更好、更快的刷新速度，因此基本会逐代进行升级更新。至强6的P核/性能核对比第五代至强，在AI、HPC等工作负载方面，也都实现了2倍以上的性能提升。

除了至强产品线的代际提升对比，英特尔也公布了对标友商产品的情况：不论是AI推理运算还是媒体处理，在性能和能效方面，至强6都实现了明显的性能提升。

此次推出的英特尔至强6能效核处理器基于Intel 3制程工艺，凭借高核心密度及出色的每瓦性能，可在提供高效算力的同时显著降低能源成本。性能与能效的升级使其非常适合要求严苛的高密度、横向扩展工作负载，包括云原生应用和微服务化网络功能、分布式数据分析、内容分发网络，以及消费者数字服务等。

据陈葆立介绍，企业通过将其数据中心服务器升级至最新的至强6能效核CPU，能够显著提升能效和空间利用率。相比原来的服务器，新款CPU在保持相同算力的前提下，仅需原来1/3的服务器数量，从而节约了2/3的机柜空间。这种升级不仅有助于实现数据中心的节能减排，还能在节省出的空间中部署更多服务器或AI硬件，增强整体计算能力。

除了本次亮相的能效核产品之外，英特尔至强6性能核处理器（代号Granite Rapids）预计将于下季度推出。

剖析至强6设计理念和亮点：接口、互连、封装等

云服务和企业级应用对AI训练、大数据处理、存储、微服务和流媒体等计算服务的需求日益增长，因此，硬件和云服务提供商必须在研发成本、性能、功耗、能效、利用率以及安全和可靠性等多个方面进行权衡。

“数据中心在处理多样化计算需求时面临的挑战，正是英特尔至强6在设计时需要充分考虑的问题”，英特尔的一位资深技术专家表示。

至强6系列处理器包括能效核6700和性能核6900两个平台，它们均采用性能核和能效核的组合，形成2×2矩阵，满足不同用户的需求。这两个平台基于相同的底层技术构建，确保了高度兼容性的同时简化了开发验证过程。

6700和6900系列均增强了PCIe和CXL接口的数量，以及CPU间互连的UPI带宽。最新发布的6700系列产品，配备了144个能效核，据称，即将发布的6900系列则进一步将能效核数量翻倍至288个。

从微架构角度来看，性能核由于集成了AVX-512和AMX等向量和矩阵运算单元，为高并发计算任务（如AI和科学计算等），提供了高性能的计算能力。再结合MCR内存技术，性能核能够获得更高的带宽支持，进一步增强了其处理能力。

此外，在乱序执行方面，性能核提供了512长度的乱序执行引擎，能够更好地优化编程中的软件指令，可以更大程度使用后面的执行引擎，这是延续英特尔以往的产品路线图的性能核产品。

与此相对，能效核则是英特尔在服务器端新引入的产品版本，它通过简化和裁剪一些功能来优化能效比。例如，能效核不具备AVX-512和AMX功能，同时，它对L2缓存进行了调整，从每个核心2M降至1M，同时L3缓存容量也有所不同。这些调整减少了每个能效核心的硅片面积和功耗，使得在相同的芯片面积或功耗限制下，能够提供更多的核心数量，从而实现更高的吞吐量。

从封装构造的角度来看，至强6的设计理念也有很大改变。例如第五代至强处理器中采用EMIB技术，是通过两个芯片的组合，突破了传统尺寸限制，集成了更多复杂逻辑功能，从而提升性能和功能性。而至强6不再是简单的尺寸划分，而是依据功能块进行划分，中间为计算die，上下为I/O die，由于I/O die与高速I/O紧密相关，对密度要求较低，因此可以采用成熟的Intel 7工艺，而计算die对计算密度及核心逻辑密度要求比较高，因此采用最新的Intel 3制程工艺。

基于能效核至强6700系列，由一个计算die和两个I/O die构成，而6700系列中的性能核产品则根据核心数量的不同，分别以XCC、HCC、LCC代表高中低档的芯片版本，它们共享相同的封装和平台设计，核心数量有区别，以适应不同的业务需求。

配备性能核的至强6900系列在I/O die的形状和数量上与6700系列保持一致，每个芯片包含两个I/O die，但计算核心数量有所增加。6900使用了与XCC相同的计算单元，通过增加计算单元的数量，将核心数量提升了约50%。与此同时，6900系列和6700系列的能效核采用了同样的计算单元，只是数量从单片增至双片、核心数量从144个增至288个，以实现更高的并行处理能力。

基于这些新特性，可以说最新的至强6系列融合了英特尔在封装技术和制程工艺上的进步，而至强6模块化设计和功能优化的背后，是一系列关键技术的支撑。首先是Fabric技术，它充当了计算die与I/O die之间的桥梁，实现了两者的有机结合。其次，系统架构能够集成多个die，即使在涉及多个芯片的情况下，也能通过Fabric技术将它们无缝连接成一个协调一致的系统。这种设计巧妙地将每个芯片内部的通路网络扩展并融合，形成一个更大规模、更强大的整体通路系统。这不仅优化了数据传输的效率，而且显著提升了处理器的功能和性能。

此外，EMIB（嵌入式多芯片互连桥接）技术也发挥了重要作用，它以极高密度实现了芯片间的桥接，支持die间达到1TB/s的传输速度，确保了跨die连接的带宽无损通信。

CXL 2.0技术也值得关注，这是一项由英特尔发明并不断完善的创新技术，旨在增强处理器的功能和性能。CXL 2.0特别为Type 3设备提供了增强功能，包括链路细分和QoS（Quality of Service）控制，主要面向内存扩展的使用场景。CXL Numa node模式允许系统的标准DRAM内存和通过CXL技术扩展的内存作为两个独立的Numa节点存在，并可通过软件进行控制。这种分层管理允许优化配置，同时对上层业务透明，是CXL技术的一种管理模式。

针对无法修改软件以适应CXL内存扩展的客户，英特尔提供了硬件管理方案。异构交织（Hetero Interleaved）模式将系统原生的DRAM内存和CXL内存在地址上进行混合，实现内存带宽的平衡扩展，而应用程序对CXL内存的感知和管理被最小化。这种模式为系统提供了更大的内存带宽，同时保持了系统的高性能吞吐。

另一种模式是Flat memory mode，它通过硬件辅助实现CXL和原生DRAM之间的分层管理。在这种模式下，常用数据被优先存储在DRAM中，而其他数据则存储在CXL内存中，使得CXL内存的性能接近于原生的DRAM性能，从而为用户提供了高性能的内存解决方案。通过这些模式，CXL 2.0技术为用户提供了灵活的内存扩展和管理选项。

聚焦数据中心新挑战，生态合作应对多样化需求

随着新一代至强6的推出，英特尔有望针对中国数据中心市场需求，推出更高效、节能的解决方案。至强6发布会上，多家本土生态伙伴展示了基于英特尔至强6能效核产品的最新解决方案。

金山云推出了搭载该处理器的金山云第九代高效型云服务器SE9，该服务器在计算、网络、存储等多个维度进行了深度优化，提升了核心密度和关键工作负载的运行效率。

浪潮信息发布了基于至强6能效核处理器的新一代服务器，以其高效节能、安全可靠、灵活架构和智能开放的核心特性，提高了算力基础设施的利用率，并降低了运营成本，有效应对当前数据中心面临的能耗挑战。

南大通用分享了为提高数据中心能效比而打造的分布式逻辑数据仓库解决方案，该方案利用至强6能效核处理器的多核优势和工艺与微架构的创新，提升了业务部署密度和单节点性能。

记忆科技则将“低碳节能”的设计理念融入基于英特尔至强6的数据中心服务器全生命周期中，推动了高算力与低能耗相结合的高能效数据中心的发展。

在探讨数据中心逐渐走向加速计算的趋势时，英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理梁雅莉表示，数据中心的算力架构正在不断变迁，随着生成式AI的快速发展，对算力的需求变得更加多样化。现代数据中心不再依赖单一的算力架构满足所有客户需求，而是需要针对不同的应用场景和业务负载提供定制化的解决方案，算力架构的多样性和异构发展将是一个明显的趋势。

金山云高级副总裁刘涛进一步阐述，尽管企业在AI算力方面投入很大，但在整个AI业务流程中，主要是训练环节对算力需求较高。他指出，AI的整个生命周期包括数据抓取、清洗、重组、管理、训练和核心功能使用等多个环节，而加速算力主要针对矩阵并行运算，标准的通用算力仍然非常重要。

谈及多样化工作负载需求下，服务器的设计和部署挑战时，浪潮信息服务器产品线总经理赵帅提到，英特尔可提供完善和全面的生态系统支持，除此之外，面对业界多样化和碎片化的算力需求，OEM厂商需要采用解耦的开发模式，将平台开发与产品开发分离，以提前进行平台开发并适配多个产品。这种方式不仅保证了产品的敏捷迭代，也简化了用户端的部署和使用，并且能够满足客户迅速采用最新处理器的需求。

记忆科技（深圳）有限公司服务器产品线总经理朱劲松补充，硬件是基础，如果没有硬件的支持，软件的效率将大大降低。他认为，英特尔提供的能效核和性能核是解决效率和性能问题的根本方案。此外，他强调了模块化设计的重要性，模块化允许产品的各个模组灵活组合，以支持不同的冷却方式和存储需求，从而更好地满足不同客户的硬件需求。

结语

英特尔至强6处理器的推出，是英特尔在构建高效能、多样化数据中心生态系统方面的重要一步。梁雅莉强调，英特尔至强6能效核处理器专为云原生应用和大规模分布式工作负载设计，能够满足云化数据中心对高性能、高密度和高能效的需求，同时有效降低数据中心的总体拥有成本（TCO）。英特尔期望与行业伙伴紧密合作，共同开发创新的端到端解决方案，以支持企业在数字化转型中取得成功。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
USB2514BI-AEZG	1	Microchip Technology Inc	UNIVERSAL SERIAL BUS CONTROLLER, QCC36, 6 X 6 MM, 0.50 MM PITCH, ROHS COMPLIANT, QFN-36	ECAD模型下载ECAD模型	$3.89	查看
DS3234SN#T&R	1	Maxim Integrated Products	Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20		$8.47	查看
MC56F8323VFBE	1	Freescale Semiconductor	16-bit DSC, 56800E core, 32KB Flash, 60MHz, QFP 64	ECAD模型下载ECAD模型	$14.69	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

USB2514BI-AEZG

Microchip Technology Inc

UNIVERSAL SERIAL BUS CONTROLLER, QCC36, 6 X 6 MM, 0.50 MM PITCH, ROHS COMPLIANT, QFN-36