在数据中心等应用场景,英特尔至强可扩展处理器依然占据主导地位,该产品进展也被业界所关注。日前,在美国圣何塞举行的“2023英特尔on技术创新大会”上,英特尔副总裁、至强产品和解决方案事业部总经理Lisa Spelman,和英特尔资深院士、至强首席架构师Ronak Singhal,接受了<与非网>和全球其他少数媒体的专访,就未来至强的架构细节、在AI时代的创新思路等进行了深入分析。
25%在售至强被用于AI负载
目前,英特尔至强可扩展处理器已经进化到第四代,第五代至强将于今年12月14日(美国时间)发布。据Lisa Spelman透露,截止目前,英特尔已经与所有领先的云服务提供商展开合作,打造多元化实例,并保障其基础设施的可用性。并且,与英特尔合作的原始设备制造商也都在大批量出货。由此可见,英特尔正在大规模推动第四代英特尔至强可扩展处理器的广泛应用。
在第三代至强时,很多性能都是针对多元化工作负载的,而在此基础上,英特尔正在持续创新,特别是增强在人工智能领域的应用。“我们始终认为至强是适用于任何边缘网络、数据中心、云等工作负载的强有力产品,但同时,至强也具备诸多加速器和专业功能,以满足人工智能工作负载的需求,这也日渐成为我们业务中越来越重要的一部分”,Lisa Spelman表示。
她透露,根据与客户对一些工作负载、市场需求等分析发现,25%在售的至强被用于人工智能工作负载。其中,很大一部分是用于推理,一小部分用于训练。此外,许多至强产品还用于在训练或推理之前的一些工作,如数据准备(包括为至强和GPU提供数据)。未来,英特尔将持续推动至强系列的创新,以进一步增强在人工智能CPU市场的领先性。
第五代至强焦点:AI、每瓦性能、安全性、可部署性……
在至强处理器中引入AI加速器不仅意味着成本的变化,更会对产品的空间布局等带来影响,这并非一件小事。
Lisa Spelman分享,团队内部确实对此有过激烈的讨论,但最终,大家一致认为这个举措将产生积极的影响,因此也将坚定不移地持续推进。在推动硬件革新的同时,英特尔也将更多精力投入到软件更新中,以期实现更多指数级的变革。
关于即将发布的第五代至强(代号为Emerald Rapids)进展,Lisa Spelman介绍说,现阶段正与客户紧密合作完成测试、并为广泛的系统应用做准备。值得注意的是,它与上一代Sapphire Rapids使用同一平台,是英特尔整个产品线历史上最无缝的升级之一。
在海量数据、复杂数据处理等需求下,能源效率已成为现代云计算和数据中心高性能服务器处理器转变设计的关键因素,也成为衡量处理器性能的重要指标,这显然也是至强未来处理器的聚焦方向。
与前代产品相比,第五代至强将会在每瓦性能方面实现很大提升。Lisa Spelman解释说,人们在谈论性能时,真正关注的其实是最大利用率,许多数据中心并没有在任何硬件上真正以最大利用率每时每刻去运行。英特尔一直致力于提高不同工作负载或不同利用率水平下的性能、效率和功耗,这对于大型企业客户以及流量变化很大的云服务提供商客户来说至关重要,在多元化场景中的实际数据比产品的书面峰值数据更有价值。
此外,第五代至强还将进一步推进安全功能,比如持续扩大可信执行环境的覆盖范围。作为机密计算的服务基础,这将更有助于增强硬件的安全性。该功能在第四代至强中面向一些顶级云服务商提供,第五代产品中则将推向整个市场。
下一代至强的关注重点还有可部署性。英特尔致力于让所有数据中心客户都能快速部署该产品,同时适用于上一代平台的通用软件堆栈。在具备这一优势的基础上,升级将非常便捷。再从技术的角度来看,客户将拥有更快的传输、更大的缓存等,所有这些改进都将为广泛的工作负载带来良好的性能提升。例如针对人工智能工作负载非常注重的内存带宽,第五代至强Emerald Rapids将通过支持DDR 5以满足其需求。
2024年推出第六代至强:P-core和E-core全面覆盖数据中心所需
在最近的Hot Chips上,我们注意到至强处理器引入了新的体系结构:Granite Rapids(性能核/P-core产品)和Sierra Forest(能效核/E-core产品)或将是第六代至强最重要的更新。
随着客户用例和应用程序的日益多元化,对硬件基础设施也提出了不同需求,至强正是致力于通过核心数量、功率、能耗等变化,来满足市场和客户实际工作负载需求。英特尔将引入下一代代号为“Birch Stream”的创新平台,该平台支持两种不同类型的至强处理器:其一是Granite Rapids,也就是第四代至强(Sapphire Rapids)、第五代至强(Emerald Rapids)再向后的产品迭代,Granite Rapids会作为典型的至强产品演进,诞生出下一代P-core性能核处理器,将继续主要围绕内存、核数、I/O等进行产品升级。
值得注意的是,关于Granite Rapids的产品升级有两个要点:一是如何增强算力。其中最重要的是在第四代至强基础上增加了核数,以及继续提高能效。因为进行大量AI矩阵计算时,耗电量会大幅提升,提升产品能效会直接改善性能底线。将AMX集成至处理器进一步加强了的产品竞争力。二是内存带宽。部分AI工作负载以计算为核心,因此将受到核数和能效的影响。还有部分大语言模型,需要处理包括计算、存储等AI工作负载,因此对内存带宽亦提出了要求。
其二是明年将推出的第一款基于E-core能效核的产品,与Granite Rapids相比,Sierra Forest的核心更节能,且面积较小,因此,可以在相同功耗下进行扩展、并增加核数,最高可达288核。
也就是说,针对数据中心日益丰富的工作负载和用例类型,英特尔将通过性能核(P-core)对计算密集型和AI工作负载进行优化,能效核(E-core)则将针对高密度和横向扩展工作负载的能效进行优化。
揭秘全新架构设计过程
打磨一款好产品需要足够的时间周期,那么,英特尔是如何预判人工智能对数据中心处理器带来的挑战?在设计至强产品路线图时,又有哪些主要的考虑因素?
据透露,英特尔几年前就决定将加速人工智能计算的能力嵌入到至强的每个核心中。Ronak Singhal表示,这样做的好处就是,之前的几代产品和竞争对手相比,性能均得到显著提升,并且英特尔将在此基础上持续创新,这是至强产品路线图的核心考虑因素。也正是如此,第四代至强(Sapphire Rapids)在工作负载的广度和深度方面都得到了极大拓展。
Ronak Singhal分享,在长期倾听客户反馈的过程中,英特尔发现有一个相同的疑问,即:为什么x86与Arm相比,效率如此低下?他解释说,事实并非如此,因为指令集架构并不是决定效率的因素,而是构建产品的方式。当Sierra Forest推出后,相信业界会看到它领先的性能和密度。
以核心数为例,谁最需要超大量的核心数?云服务提供商们正在尝试将尽可能多的用户整合到一个系统上,因为这能帮助他们减少所需的系统数量,从而降低TCO,大核数的CPU(Sierra Forest)正好可以帮助他们;如果他们需要每个核心拥有最佳性能,他们则可以选择Granite Rapids。这两者是相辅相成的。
再从部署能力来看,如果客户需要投资构建平台,但迟迟无法决定是50%的Granite Rapids加50%的Sierra Forest?还是一方为0,一方为100%?亦或是完全混合?他指出,一切最终由具体的工作负载或最终客户来决定,未来的至强可以提供足够的灵活性,不仅平台相同,核心之外的其他SoC也相同,这将带来非常高的灵活度。
打造未来的数据中心处理器本身就是一项艰巨而复杂的任务,而英特尔还打算明年推出两款CPU,看似是一件挑战加倍的事。
谈及新产品的构建过程,Ronak Singhal表示一是基于 chiplet(芯粒)的方式,二是让两款处理器尽量共享更多的设计。从下图可知,顶部和底部的chiplet,就是我们所说的I/O chiplet,包括 PCIe、CXL 等。这些功能在 Sierra Forest 和 Granite Rapids 之中都很常见。英特尔不会对这些功能以及安全性或可靠性进行区分和更改,不同产品的区别在于所使用的核心,以及根据密度和每核性能所拥有的扩展能力。
产品的核数实际上就是集合多少个chiplet,可以根据实际需求,采用更多或更少的chiplet,来扩大或减少核心数量。显然,chiplet的方式既实现了构建芯片的灵活性,同时也有助于提升制造能力,可以是组合不同类型或是不同尺寸大小的chiplet。
此外,EmiB封装(英特尔的2.5D先进封装技术)也发挥了重大作用。通过EmiB封装,多个独立的计算chiplet和I/O chiplet,在单一芯片中进行了集成,使得芯片结构更为灵活,实现了通用IP、固件、操作系统、平台的有机整体。
内存方面,英特尔优化了DDR5内存速度,并将首次支持名为MCR的新内存技术,能以与DDR5相同的形态和互连方式,支持更高的内存带宽,并在HPC和AI等领域发挥价值。
“这一切功能都将在Sierra Forest和Granite Rapids上共同实现。因此,我认为明年将是基于该产品组合的数据中心发展拐点”,Ronak Singhal表示。
至强已可运行200亿参数AI大模型
最新的关于第四代至强与竞品的实测数据显示,至强性能比第四代至强发布时得到了进一步提高。Lisa Spelman表示,这主要是得益于在软件方面的努力,软硬结合可以更好地解锁性能。
大约6个月前,英特尔开始在至强上分析和研究生成式AI,当时可以在50亿或70亿参数的大模型上实现较好的TCO和效率,通过采用一些框架、对软件进行调整和优化后,这个数字提升到了100亿。而现在,至强的能力已经接近200亿参数的AI大模型,据透露,当前英特尔实验室正在研究300亿参数AI大模型的运行。
“我们努力在2024年想要实现的目标,包括提供针对计算密集型工作负载的产品,以及针对生成式AI的卓越性能,从而抓住市场机遇,满足客户的真实需求”, Lisa Spelman强调。
在加速计算的世界,CPU落伍了吗?
在AI的风口之下,特别是随着生成式AI迅速占据业界头条,采用加速计算颠覆传统数据中心的呼声越来越高。<与非网>在采访中提出:以英伟达为例,就在大力倡导并率先进军加速计算数据中心。英特尔是如何看待加速计算的?对CPU层面又有哪些影响?
Ronak Singhal表示,AI的发生不仅在各类加速器上,更在我们“老生常谈”的CPU上。实际上,眼下大部分的推理工作都是在CPU上运行的,也可以说是每个工作负载都将嵌入一部分AI工作负载,这意味着每次运行任何工作时,几乎都需要CPU进行处理。
“我们始终相信CPU上的推理是非常有价值的,也是极其普遍的。为了让其在CPU上运行,我们需要继续讨论‘加速’。我们一直在探索,如何去提高CPU的能力,使它始终是运行这些推理工作负载的最佳载体。当然这并不意味着没有加速器施展拳脚的空间。对于那些需要专门加速器的任务,还是会由加速器来运行”,他补充,“根据我们眼下所观察到的一切,包括算法的发展方向以及实际案例来看,在CPU上运行AI工作负载拥有显著优势,包括更低的延迟以及更高的能效。想象一下,来回在CPU和加速器之间移动数据造成的能耗,我认为避免这种数据传输可以极大地降低能源消耗,这也是CPU的一个显著优势。”
Lisa Spelman则强调,英特尔对目前所拥有的针对AI的CPU硬件产品路线图感到非常满意,根据众多客户反馈来看,他们正朝着一个正确的方向去挖掘产品特性和定位产品。
此外,她强调了AI时代软件的重要性。显然,英特尔正在把越来越多的精力转向软件,这是因为硬件固然非常重要,但也需要在软件方面努力,以便让整个市场更容易、更便捷地获取、利用CPU的能力。例如Oracle数据库之类的标准应用,也是花了数年时间来构建生态系统,以确保每一代产品用户都能充分利用到产品性能。
此外,可部署性也是未来构建AI生态的关键。对于云服务商、高性能计算中心来说,他们往往拥有足够的人才和技术,可以很好地解决问题并部署AI。但是对于一些对大模型有巨大需求的企业或网络运营商来说,整合更多消费级的软件对他们来说非常重要,不论他们是用于构建自己的数据中心,还是将其作为基础设施的一部分去提供服务。
基于上述原因,Lisa Spelman表示,英特尔在软件方面投入了大量精力,这对于至强以及英特尔来说可以算是“标准操作”了。英特尔希望通过构建强大的生态系统,让下一代技术更好地服务产业。
此外,英特尔正在扩大组织规模,以及通过各种不同的方式与客户进行合作,这使其够进行一些很有意义的客户对话,譬如探讨大家是如何看待市场的、英特尔可以在哪方面匹配他们的基础设施,以及了解一些大客户如何调整他们的基础设施等等,来更好地匹配英特尔的未来产品。