AI大模型正在重新定义CPU,它除了具备更高的可靠性、稳定性、可扩展性,还要具备更强的AI计算能力,以满足AI大模型对计算资源的需求。同时,能效比越来越重要,这样才能保证大模型训练和推理过程中,能源和成本的合理支出。在这些趋势下,CPU逐渐从传统的通用计算能力,转变为更符合AI大模型需求的“多面手”。
IDC表示,随着AI应用的日益普及,预计到2027年,各组织在生成式AI(GenAI)方面的支出将高达1530亿美元,而机器学习和分析的总支出将达到3610亿美元。英特尔至强6处理器经过优化,有望在这一蓬勃发展的市场中扮演重要角色,并可作为机头节点CPU,在传统机器学习、小型生成式AI模型和GPU加速工作负载中提供出色性能。
英特尔临时联合首席执行官兼英特尔产品首席执行官Michelle Johnston Holthaus表示,“英特尔深耕数据中心市场数十余年,并通过x86 架构引领标准制定和行业发展。目前,英特尔的处理器正为绝大多数数据中心提供动力。”
为了充分满足市场多样需求,英特尔不断完善至强产品系列,日前推出了至强6性能核处理器6700/6500,实现了2倍的AI处理性能提升;同时,专为网络和边缘应用设计的全新至强6 SoC芯片,实现了2.4倍的无线接入网(RAN)工作负载容量提升。
至强6700/6500——提供出色性能与能效平衡
最新的至强6700/6500性能核处理器,在数据中心和网络产品组合方面均取得了显著进展。与上一代产品相比,至强6处理器在广泛的企业工作负载中实现了平均1.4倍的性能提升。作为AI系统的机头节点CPU,至强6可与GPU搭配,为客户提供优选组合。
此外,它以更少的核心数量,提供1.5倍的AI推理性能提升。至强6处理器还具备出色的每瓦性能效率,以五年使用周期计,平均可以实现以一台新的服务器替代五台旧服务器,在某些用例中该比例可达10:1,从而节省高达68%的总体拥有成本(TCO)。
上述特性使得至强6700/6500性能核处理器在性能与能效平衡方面表现更为出色,更加符合数据中心需求。
英特尔数据中心与AI集团副总裁兼中国区总经理陈葆立介绍,最新推出的6700/6500性能核处理器目标是传统数据中心企业应用。相比高核高密度计算的大芯片,这些新品的TDP也比较适合传统机架,比如150W-350W的TDP,在内存通道上也有8个内存通道的配置。
同时在内存技术方面,英特尔推出了MRDIMM技术,显著提升了内存带宽,可以更好地支持AI工作负载。MRDIMM技术是首次在至强6产品上推出,相比第五代至强的内存速度4800-5600MT/s,至强6速度提升至DDR5 6400MT/s,而、MRDIMM进一步将速率提升至8800MT/s,相比现有数据中心服务器提升超过50%。据透露,很多客户对此表现出浓厚兴趣,并正在进行快速试验以期快速落地。
陈葆立指出,传统AI应用如推荐引擎、语音助手和图像识别等,适合CPU处理。全新的至强6处理器凭借多核、高内存带宽、AI加速指令和完整软件栈,是支持传统AI应用的理想选择。
对于大语言模型来说,尽管需要GPU等加速器,但每个GPU系统仍需两颗CPU作为机头,以加快数据传输,这要求CPU具备快速I/O、良好单核性能和更快内存。此外,GPU服务器长时间运行对系统稳定性要求极高,至强处理器凭借其可靠性和稳定性,成为智算中心和GPU服务器设计的重要选择。
“在小于20B的模型规模下,用至强进行生成式AI的推理很有优势。因为对小规模大语言模型来说,推理过程在生成首个Token时需要密集计算,后续多数Token推理则对内存带宽需求高”,英特尔技术专家补充,“至强6处理器结合MRDIMM技术,可提升性能,128核至强AP平台性能甚至超竞品50%核心平台,MRDIMM带宽达8800MT/s,对性价比要求高的中小模型推理重要。”
据英特尔技术专家分析,当前客户面临的两类问题比较突出:一是系统老旧问题,需考虑是否更换新系统,这涉及更新TCO的ROI计算。以目前市面上应用广泛的五年更新周期的第二代至强为例,客户关注空间与能耗节省,更新后可实现10:1整合比例,节省约2/3的TCO,鼓励客户更新基础设置。
其二,在客户采购时,需对比市面同类产品。至强AP平台在传统数据、网络服务、科学计算及AI领域性能优于竞品。至强6处理器系列,包括SP平台的6700P和6500P系列,在传统AI推荐系统、科学计算、网络服务、图像构建等业务中,带来显著性能提升与TCO节省。
据透露,英特尔将在2026年发布采用18A制程的下一代至强Clearwater Forest,目前进展顺利,这也将会是英特尔至强处理器发展历程中下一个重要的里程碑。
面向网络和边缘应用的英特尔至强6处理器SoC——提供高性能与能效
英特尔同时还推出一款面向网络和边缘应用的至强6处理器,它是一款系统级芯片(SoC),集成多种加速器,旨在提供高性能与能效。该产品主要面向运营商,涵盖从办公室到数据中心的网络与边缘领域,涉及多样化工作负载,兼顾计算密度、连接性能、功耗及物理尺寸,整合了多种安全和控制功能。
由于至强6系统级芯片定位于网络与边缘场景,因此针对多样化的功能特性进行了高度集成。它融合了英特尔至强6性能核处理器特性,核心数达72个,整合了多种加速器,例如:整合vRAN boost技术、英特尔媒体转码加速器及英特尔AMX等加速器等,实现了功耗性能的平衡优化。
据英特尔中国网络与边缘事业部总经理阮伯超介绍,至强6 SoC广泛应用于运营商网络及网络与边缘领域,所实现的优势包括:在运算网络中,为vRAN带来高性能功耗比增长,如与诺基亚合作提升了70%的性能功耗比,从而帮助运营商提升了整体密度,达到2.4倍的无线接入网(RAN)工作负载容量;在AI领域,通过内置英特尔AMX使单核AI RAN性能较上一代提升3.2倍;在网络安全领域,大幅提升Webroot CSI上传模型推理速度,相比英特尔至强D-2899NT处理器提升最高达4.3倍。
作为首款媒体转码加速器的服务器SoC,至强6 SoC在编解码时可以实现较大的性能功耗比提升。相较于英特尔至强6538N处理器,每瓦性能提升达到了14倍。同时,内置的媒体加速器也可以帮助传统的VDI(虚拟桌面基础架构)领域,提升媒体的处理效率,减少总体拥有成本。
值得注意的是,由于网络与边缘领域,智算网融合是一个重要方向。以 AI 应用为例,边缘服务器可应用于智能工厂,助力矿山开采作业,亦能用于智能摄像头相关场景。用于这些场景的设备需要集成多种网络功能,如 SD-WAN(软件定义广域网),同时整合安全功能。更为重要的是,它将各类 AI 应用集成于一体,例如智能监控与安全监控应用。通过性能均衡设计,将英特尔AMX和英特尔媒体转码加速器集成在同一设备中,通过一个38核系统可以同时支持38路摄像头视频流的int8推理,系统实现了功耗、性能的平衡和优化。
AI算力需求井喷,至强6如何满足数据中心需求?
随着AI算力需求的不断增长,至强6如何成为符合AI大模型需求的“多面手”?
陈葆立指出,早在大模型兴起之前,AI就已经广泛应用于数据中心,包括推荐引擎和搜索等领域,国内许多大型互联网企业一直使用大量的至强处理器来支持这些业务。多年来,英特尔推出了多种AI加速技术,例如AMX加速器,帮助客户提升AI计算性能。相比友商,英特尔在支持AI场景方面充满信心,技术上也具有明显优势。
面对大规模应用的GPU服务器,陈葆立认为,机头位置的CPU选择至关重要。因为处理大模型计算时需要着重关注两个性能指标:一是提问后第一个回答的延迟时间,二是CPU内存带宽,因为CPU需要快速调取数据进行分析并给出响应。
“尽管随着更多新模型的出现,客户对推理算力的需求增加,但并非所有场景都需要超大规模模型。客户开始关注至强6处理器与MRDIMM的组合是否能在不同场景下有效支持大模型运算。我们已经证明,这种组合是可行的。尽管国内有许多不同类型的加速卡,现阶段最新一代至强6处理器系列依然是客户和合作伙伴的首选平台,并且能够进行更好的适配和验证”,陈葆立强调。