编辑 | 漠影
▲2023-2025年英特尔至强路线图
同时可以看到,英特尔至强路线图增加了一个新成员——第二代高能效至强Clearwater Forest。该芯片预计在2025年上市,将采用Intel 18A。这个跳过Intel 20A、直接用上Intel 18A的决定,传递出英特尔对其未来节点顺利推进的信心。
英特尔还展示了第四代英特尔至强可扩展处理器与第四代AMD EPYC处理器的AI基准测试表现对比,同为48核的两个芯片交锋中,至强展现出接近4倍的性能优势。
此前,英特尔第四代至强Sapphire Rapids曾面临延期问题。另据知名市研机构IDC计算,英特尔仍主导个人电脑(PC)和服务器芯片市场,市场份额超过70%,但较2017年的90%以上有所下降。
而在今日,英特尔执行副总裁Sandra Rivera宣布英特尔“路线图正在走上正轨”,并称Granite Rapids正在实现“所有的关键工程里程碑”。
英特尔也在致力于构建英特尔开发者云,其中包含256颗至强芯片和512颗AI训练芯片Gaudi,可供AI开发者训练和运行新模型。Hugging Face和Stability AI等明星AI创企均在采用英特尔芯片。
01.英特尔数据中心路线图更新:两大路线、五个新品、挺进Intel 18A工艺
▲2023-2025年英特尔与AMD高性能、高能效数据中心CPU对比(图源:Tom’s Hardware)
在Sapphire Rapids推出后几个月,英特尔将于今年第四季度推出其配备更多内核和更快时钟速率的第五代至强Emerald Rapids,将提供比前代更多的核心,实现更高的性能和能效。AMD的5nm Genoa-X定于今年晚些时候发布。明年,英特尔Granite Rapids将与AMD的Turin展开较量。
高能效产品方面,AMD的Bergamo将在今年上市,英特尔Sierra Forrest要到2024年上半年才会推出。AMD尚未透露它的第二代E-Core产品何时交付,而英特尔已经在其路线图中公布了Clearwater Forest。
▲英特尔演示了Sierra Forest所有144个核心的运行情况
英特尔面向消费市场的E-Core是单线程的,但尚未透露数据中心的高能效核是否支持超线程。而AMD称128核Bergamo是超线程的,因此每个插槽总共提供256个线程。
英特尔的E-core不支持其P-Core支持的一些指令集架构(ISA),通过省掉AVX-512和AMX来确保最大密度。AMD Bergamo Zen 4c(“c”表示专为云原生工作负载而设计)核心则具有与其标准Zen 4核心相同的功能。
紧随Sierra Forest之后,Granite Rapids将于2024年交付,已向客户送样。这是采用Intel 3工艺的第一个P-Core至强,将拥有比Emerald Rapids更多的内核、来自DDR5-8800内存的更高内存带宽及I/O创新。
值得注意的是,第一个搭配E-Core的系列Sierra Forest将与搭配P-Core的Granite Rapids插槽兼容,两者甚至共享相同的BIOS和软件。英特尔通过将这些芯片转移到基于块的设计来实现,有点像AMD EPYC处理器的设计思路,中央I/O块处理内存和其他连接功能,将核心和非核心功能分开。这样就能用相同系统将更多将更多线程heft与E-Core打包,且TDP范围与P-Core样品相同。
英特尔演示了双路Granite Rapids。它可提供1.5TB/s DDR5内存带宽,据称比现有服务器内存提高了80%的峰值带宽。Granite Rapids提供的吞吐量高于英伟达960GB/s Grace CPU超级芯片,也高于理论峰值920GB/s的AMD双路Genoa。这一提升得益于英特尔研发的新型带宽优化内存DDR5-8800多路复用器组合列(MCR)DRAM。
▲英特尔展示了Granite Rapids在双路服务器中提供1.5TB/s带宽
02.下一代AI训练芯片“taped in”更新GPU路线图
除了至强外,英特尔也公布了其面向数据中心和AI领域的其他产品更新。
英特尔计划在今年推出15款新FPGA,这将创下其FPGA部分的记录。其AI训练芯片Habana Gaudi2正在出货,Gaudi3已经“taped in”。
英特尔还透露其Artic Sound和Ponte Vecchio GPU正在出货。英特尔最近更新了其GPU路线图,取消了即将推出的Rialto Bridge系列数据中心Max GPU,并将数据中心GPU版本的发布周期改为两年。
其下一款数据中心GPU产品将以基于Chiplet的混合芯片Falcon Shores的形式出现,预计到2025年才会交付。英特尔还降低了对Falcon Shores的期望,称它们将只支持GPU架构,不包括最初计划的CPU核心选项。
英特尔也分析了AI加速器的机会,预测通用计算将占大约60%的工作负载,涉及中小型AI模型,主要在CPU上运行。包括大模型(超过1000亿个参数)在内的加速计算将占大约40%的工作负载,在GPU和其他定制加速器上运行。
▲Gaudi2、A100-80GB、第一代Gaudi跑BLOOMZ模型表现对比(图源:Hugging Face)
此外,Hugging Face亦介绍了Stability AI的AI文生图模型Stable Diffusion。在不更改任何代码的情况下,Stable Diffusion在内置英特尔高级矩阵扩展(英特尔AMX)的第四代英特尔至强可扩展处理器上平均运行速度提高了3.8倍。
Stability AI创始人兼首席执行官Emad Mostaque说,Stable Diffusion模型已能高效运行在英特尔的异构产品上,从第四代Sapphire Rapids CPU到像Gaudi这样的加速器,是实现AI民主化的一个绝佳合作伙伴,期待在下一代语言、视频和代码模型等方面与英特尔合作。
OpenVINO进一步加速了Stable Diffusion推理。结合使用第四代至强CPU,速度几乎比第三代英特尔至强可扩展CPU提高了2.7倍。Optimum Intel是OpenVINO支持的一个用于加速英特尔架构上的端到端管道的工具,它将平均延迟再降低为之前的1/3.5,总共降低到原来的近1/10。
03.结语:进入AI新时代能效成推动生产力的关键
英特尔几年前就开始转向“以数据为中心”的战略。如今随着ChatGPT爆火,以大型语言模型(LLM)为代表的先进AI技术进入公众视野,这类模型所需的数据量和计算量,亦使性能、成本和能效成为众多企业关注的焦点,其中能效尤其是推动生产力的关键因素。
这证明了英特尔赌注的前瞻性。AI算法迭代如此之快,CPU凭借极强的通用性至今仍是运行AI推理工作负载的主力。英特尔正通过至强P-Core和E-Core双路并行的策略,为前景可观的AI市场做好准备。
但挑战也是前所未有的,英特尔面临着愈发强劲的竞争对手。凭借高能效横扫移动芯片市场的Arm架构,如今正在数据中心快速扩张其生态系统,并成为越来越多云计算巨头和芯片初创公司的“座上宾”。应对接踵而至的压力,英特尔和AMD都更加注重优化芯片的能效和核心密度。这一背景下,将采用Intel 18A工艺的Clearwater Forest相当令人期待,可能在2025年展开新一轮有趣的竞争。
英特尔显然不愿将其在数据中心的领先优势拱手让人,正试图通过夺回技术领先地位来扭转近年来服务器市场份额的损失。如今,它声称已经解决了其工艺节点技术中的根本问题,并改进了其芯片设计方法,以防止其下一代产品的延迟。结合近两次路线图来看,英特尔正按照计划稳步推进其至强系列的研发与交付,并加速Intel 18A工艺节点进入产品,为英特尔赢得更大优势。