新算力时代，CPU如何“加速”演进

今年1月，英特尔正式发布了第四代英特尔至强可扩展处理器（代号Sapphire Rapids）。日前，英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰、及英特尔多位技术专家，从本地实践应用案例入手，详细解读了第四代至强可扩展处理器的技术特性及价值。

“东数西算”引导下，IT市场大有可为

聚焦数据中心和基础设施建设方向，我国去年推出了“东数西算”重要战略，强调算力的平衡、以及可持续性的发展。庄秉翰谈到，“东数西算”对数据中心进行合理分布，再通过高速网络，可以把东西部的数据资源和数据中心很合理地结合在一起，从而达到数据中心和IT产业的持续增长。他认为“东数西算”作为国家级的整体战略，在政府指导下，在运营商、互联网厂商等共同协作下将发挥有力作用。

庄秉翰认为，今年下半年市场有望出现正向的回暖迹象，我国在IT方面的支出也会比去年有所增加，“东数西算”战略将大有可为。

“加速器”成为新一代CPU重要趋势

第四代至强可扩展处理器是一个高度创新的平台，采用Intel 7制程工艺制造，拥有全新的芯片架构。通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器，以及业界领先的DDR5、CXL1.1、PCIe 5.0等，致力于让加速无所不在。

“加速器”是第四代至强可扩展处理器最突出的创新点。目前，在数据中心常用的工作负载中，大数据、数据库、网络、人工智能等带来了全新功能。通过融入加速器，可以更高效、更低能耗地处理这些工作负载。庄秉翰指出，以前如果要处理一个工作负载，可能需要多个核，而在第四代至强可扩展处理器平台上，通过加速器，有可能只用一个核或部分核就可以处理很复杂的业务。

英特尔技术专家也表示，CPU的发展一度是核心数量越变越多、主频越变越高。但是随着数据中心应用需求的演变，有时候需要做一些压缩/解压缩、加/解密，或者会有内存搬移的工作。对于这些工作负载来说，增加CPU核心并不一定是高效的，反而是专有的加速器更高效。与此同时，通过增加加速器，可以提升每瓦性能，提升能效比。

至于内置和外置加速器有什么区别，对英特尔来说有什么难度和挑战？英特尔技术专家表示，如果是外置的加速器，可以通过类似PCIe卡的形态实现。而内置加速器虽然挑战更大，但是可以带来如下好处：首先是可以节约功耗，因为PCIe卡的功耗还是很高的。第二，加速器内置在CPU里面，离内存更近，可以实现大幅的性能提升。

不过，增加加速器的同时，一方面增加了CPU设计的难度，会对设计、验证的时间有一些影响；另一方面，由于每一个硬件加速器都要和广大的产业伙伴或终端用户进行适配，需要英特尔充分发挥在业内的影响力，在整个生态系统去构建对加速器的支持，才能保证加速器在上市的同时就有大量的软件去进行支撑。据介绍，英特尔为了解决加速器带来的开发和应用挑战，也在强调使用Chiplet的设计理念，I/O die也将会和Core die做分解，来帮助业界应对挑战。

此外，庄秉翰强调，随着算力市场的需求越来越多，传统的虚机依然存在很大需求。因此未来CPU的目标，除了对传统的虚机性能进一步提升之外，也会基于对多核需求的场景，更有针对性地进行开发。

“算力神器”详解和应用案例

第四代至强可扩展处理器具备众多内置加速器，包括AMX、IAA、DLB、DSA、QAT等“七大算力神器”，可提高AI、数据分析、网络、存储和科学计算等众多的性能。值得一提的是，英特尔在MWC 2023期间，发布集成vRAN Boost的第四代至强可扩展处理器，它可以将物理层加速功能完全集成到芯片中，而无需外置加速卡，从而使得运营商能够在通用虚拟化平台上整合所有基站层，带来很大的性价比提升。

AMX将进一步提升 AI 性能

据英特尔技术专家介绍，第四代至强可扩展处理器内置了全新的英特尔高级矩阵扩展（AMX）。它是首次在CPU平台上应用的矩阵运算单元，支持两种数据精度：8bit整型数据（INT8）和16bit浮点数据（即BF16）。人工智能通常有两种运算场景，一种是训练，即根据数据不断迭代出一个模型；另一种场景是推理，就是基于已有模型，针对场景做出一个判断。训练时模型的数据精度要得到保证，通常需要BF16以上的数据精度进行运算；而对于推理来说，由于运算量相对较小，通常INT8就可以满足要求。

以阿里的应用为例，英特尔技术专家分享了双方是如何展开合作，特别是基于第四代至强可扩展处理器的AMX单元实现了整体的性能提升。

首先是地址标准化，一个典型应用就是淘宝用户在增加新的收货地址时，淘宝系统会不断给出提示，最终帮助用户定位到某一地址。这个业务涉及到语义分析，在淘宝中的应用相当广泛，每天有着千万级的服务量。而评价该业务的关键性能指标是单位时间内查询数，希望每秒能够提供查询的数量越多越好。

以这个需求为导向，英特尔与阿里展开合作，基于AMX INT8数据类型的精度，同时辅以软件优化手段（例如软件运算时的层级融合技术，以及英特尔开发的高性能运算优化库），最终实现了比第三代Ice Lake整机2.48倍的性能提升。

第二个优化案例是手机淘宝APP为客户推荐的定制化首页。这个业务的服务量更为庞大，每天服务请求数高达亿次。基于AMX BF16数据类型的精度，同时结合软件优化、操作融合，以及在AVX-512的深入调优，最终性能达到了原来的3倍。

第三个优化案例是由太极机器学习平台支撑的搜索和广告业务，其对性能指标有两方面要求：首先是能够满足的搜索次数越多越好；其次是搜索的延时要小于5毫秒。与前面两个部署在物理机上的应用实例不同，该业务部署在腾讯云上。由于客户的云服务实例有高精度和低精度两种，高精度实例就可以采用BF16进行数据处理，低精度实例就可以选择INT8数据处理。经过优化，最终不仅降低了对云服务实例CPU数量的需求，同时性能上也得到了提升（高精实例性能是原来的3倍，低精实例性能是原来的2倍）。

结合现在非常火的AIGC应用，英特尔技术专家表示，Stable Diffusion正在驱动业务创新和模型创新，它作为一种深度学习模型，有两个典型的应用场景：一是输入文本生成高清图片，二是输入图片和提示词生成另外一个图片。这一类生成式模型，不论Stable Diffusion还是热度更高的大语言模型，从技术角度来说，其中大量使用了注意力机制，特别是在Stable Diffusion中，注意力机制的占比较高，通常可以达到50%-80%。

而这个注意力机制其实主要包括了矩阵相乘运算和大量的指数运算。在这类应用中，AMX BF16可以加速矩阵计算，AVX-512指令可以加速指数计算。在使用英特尔PyTorch扩展插件的情况下，可以在512×512这类图生成上，获得3.82倍的吞吐提升；在720P上，可以获得5.26倍的吞吐提升。

目前人工智能OCR/文本识别领域（例如医疗领域票据的识别、用于交通领域车牌和路标的识别、以及卷宗电子化等应用），都可以引入AMX进行软硬件方面的优化，实现数倍的性能提升。

针对大数据和内存应用的IAA和DSA

IAA（In-Memory Analytics Accelerator），顾名思义是针对大数据、内存分析类型等数据场景，例如数据的解压、查询、过滤等，都可以交由加速器完成，从而释放CPU的计算资源，发挥整体计算的最大性能，提升能效比。

国内互联网厂商、云厂商等应用较多的Clickhouse，在针对大数据分析的应用实例中，一度有一个痛点，就是对数据进行压缩/解压缩的同时，势必会带来性能损失，因为这个过程会占用CPU资源，基于此，就可以用IAA的压缩/解压缩功能去进行加速。

通过在Clickhouse中加入支持IAA -Deflate的插件，从而实现了IAA功能。目前这部分功能已经在社区开源，便于业界应用Clickhouse的最新功能。

DSA全称是Data Streaming Accelerator，这个加速器旨在加速针对内存的搬移和传输等工作，从而可以将CPU核心资源释放出来，去做更多业务上的场景。目前英特尔有自己的软件库DML，同时业界广泛应用的DPDK、SPDK等软件，都已经集成了DSA。

英特尔技术专家还分享了数据中心业务中大范围应用的数据服务类应用，包括内存数据库、关系型数据库、大数据分析、数据仓库等，以及基于数据服务类应用之上的企业关键业务系统，比如ERP、SCM和CRM系统等，它们的性能都非常依赖于底层硬件平台的支撑。

在大数据分析的应用中，因为对性能有比较高的要求，因此越来越倾向于把数据都缓存在内存中，这实际对内存的带宽带来非常高的要求。比如大数据分析中常见的SPARK应用，在CPU核性能提升的情况下，内存带宽往往是瓶颈。

因此，第四代至强可扩展处理器将内存从DDR4升级到DDR5，得到了50%的内存带宽的提升。此外，从PCIe 4.0提升到PCIe 5.0，带来了两倍的I/O带宽提升；而除了CPU核数提升之外，CPU单核性能也进行了优化，提高了CPU各级缓存的大小。

通过这些CPU内核的升级，根据多种应用的平均值，总体实现了15%的单核性能提升。除此之外，利用DSA加速器，在处理大的数据报文的时候，可以达到1.6倍的性能提升、以及37%的延时降低。在应用QAT加速时，对于数据压缩场景，可以达到2倍的压缩吞吐提升，同时带来95%核占用率的降低。

国内的并行数据库厂商Gbase，其旗舰产品Gbase 8a在业内的分析型数据库评测TPC-DS中，排名世界第三。Gbase 8a专门针对第四代至强可扩展处理器的IAA加速器进行了优化，相比第三代Ice Lake，基于两种不同的加速算法：一是南大通用自研的压缩算法RapidZ，也是Gbase 8a默认的压缩算法，在没有任何加速器优化的情况下，可以获得1.58倍的性能提升；对另一种业内常用的压缩算法ZSTD，在没有进行加速器优化的情况下，可获得1.64倍的性能提升。

在此基础上如果使用IAA加速器，对于ZSTD可获得1.84倍的性能提升，并且可以达到与ZSTD相似的压缩率；而相对于Gbase 8a默认的压缩算法RapidZ来说，性能提升则是1.66倍。同时，RapidZ为了追求高性能，在压缩率上做了一些牺牲，而基于第四代至强可扩展处理器，可以在保持较高性能提升的基础上，压缩率提高1.51倍。

此外，还有Microsoft SQL Server，通过第四代至强可扩展处理器的QAT加速器用于数据的压缩、解压缩、加解密等，可以使备份时间降低至小于原来1/3的时间，同时该服务器基于第四代至强可扩展处理器，还可获得1.34倍的性能提升。

写在最后

尽管英特尔至强系列面向的是通用市场，但是，针对千行百业、越来越细分的计算场景，英特尔通过内置丰富的加速器来提供更有针对性、更为差异化的加速功能，来应对不同的应用负载需求。

此外在软件方面，英特尔也在加大开源领域的投入，通过优化通用软件，让上层应用更为容易，为更多计算工作赋能。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
DSPIC33EP512MU814-E/PH	1	Microchip Technology Inc	16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144	ECAD模型下载ECAD模型	$11.85	查看
FT232RL	1	FTDI Chip	Serial I/O Controller, CMOS, PDSO28, 5.30 X 10.20 MM, 0.65 MM PITCH, GREEN, SSOP-28	ECAD模型下载ECAD模型	$10.08	查看
ATXMEGA128A4U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 44TQFP	ECAD模型下载ECAD模型	$4.91	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

DSPIC33EP512MU814-E/PH

Microchip Technology Inc

16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144