英特尔新处理器暴力升级：性能爆发，「统一内存」

来源：雷科技AI 硬件组 |

编辑：冬日果酱 |

仅仅半年之后，AI PC 就要迎来了一轮大幅度的升级。在之前关于 AMD 锐龙 AI 300 系列的报道中，雷科技就提到了 AMD 新款 AI PC 芯片在 NPU 算力的飞跃，以及高通、AMD 和英特尔之间的全新竞争。而在高通、AMD 之后，英特尔终于也带来了下一代笔记本电脑芯片。6 月 4 日，英特尔在台北电脑展上展示了最新一代的 Lunar Lake 处理器，并计划在秋季正式出货。坦白讲，这个发布节奏对比 AMD 和高通显然要「慢」上不少，首批搭载骁龙 X 系列芯片的 Windows 11 AI PC 很快就将在 618 上市，搭载 AMD 锐龙 AI 300 系列的 Windows 11 AI PC 也将从 7 月起陆续上市。俗话说「好饭不怕晚」。但问题是，英特尔的 Lunar Lake 会是一碗「好饭」吗？英特尔已经放言，Lunar Lake「绝对」超越高通同类产品（其实就是骁龙 X 系列芯片），然而就现在来说，我们肯定不会得到一个明确的答案。

但从目前公开和流出的信息来看，Lunar Lake 至少是值得期待的，不仅因为全面提升的 CPU、GPU、NPU 性能，也因为用上了台积电的先进制造工艺以及自己的先进封装工艺。

甚至在 Lunar Lake 上，英特尔第一次将 LPDDR5X 内存封装在芯片之中，就像苹果的统一内存架构一般。但这种设计能给 Lunar Lake 带来什么变化和升级？Lunar Lake 又能给下一代 AI PC 带来什么？这些都是英特尔要在几个月后要正式回答的。

台积电工艺加持，Lunar Lake 不只性能更强

去年，英特尔宣称酷睿 Ultra（Meteor Lake）处理器代表了该公司 40 年来最大的一次架构转变，但面对 Arm 芯片的持续挑战，这种转变显然不会是一次性的。在 Lunar Lake 上，英特尔继续采用了 SoC 的设计，在一块芯片中集成了 CPU、GPU、NPU 计算模块。不同的是，Lunar Lake 没有采用英特尔自己的芯片制造工艺，而是用上了台积电 N3B 和台积电 N6 两种工艺来打造。在一定程度上，这是一种升级，毕竟是用上了目前最先进的台积电 3nm 工艺。要指出的是，N3B 作为台积电 3nm 的第一代工艺，在苹果 A17 Pro 上并没有带来大幅的能效提升。不过对比英特尔的先进工艺就另说了，按照英特尔自己的说法，Lunar Lake 的能效提升了约 30%。而在性能方面，Lunar lake 配备了全新的 CPU 和 GPU 架构，CPU 性能提升了约 20%，GPU 性能更是提升了 50%，尤其在 3DMark Time Spy 等基准测试中提升更为明显。

具体来说，新的 CPU 设计增强了分支预测、指令并行度和缓存带宽，使得处理器在处理多任务和计算密集型任务时有更好的表现。原来酷睿 Ultra 采用的 3D 性能混合架构也改了，英特尔在 Lunar Lake 上砍掉了 LP-E 核设计，用上了新的 4x4 设计，也就是说，Lunar Lake 现在配备了 4 个 P 核、4 个 E 核。同时 Lunar Lake 上不支持超线程，意味着 Lunar Lake 的线程数量和核心数量一样都是 8。按照英特尔的说法，与之前的 LP-E 核相比，Lunar Lake 的 E 核（Skymont）在同性能下的功耗只有前者的三分之一，同功耗下的单线程和多线程性能则有前者 2 倍和 4 倍。另一边，P 核（Lion Cove）的 IPC 提高了 14%。

此外，在 Windows 11「containment zones」的基础上，Lunar Lake 可以通过线程指令使用异构调度策略，将工作负载（比如 Copilot 助手等应用）导向功耗更低的 E 核，来实现节省电量的目的；或者是导向性能更高的 P 核，实现更流畅地运行。简单来说，现在 Lunar Lake 可以将特定任务细化到分配给不同策略的核心，做到更高匹配度和更高效率的运行。GPU 方面，Lunar Lake 采用了下一代 Xe2 架构，不仅性能有了平均 50%的提升，而且和 Xe 架构一样具有高度的可扩展性，即可以集成在低功耗的移动 SoC 上，也将用在稍晚即将推出的 Arc 显卡上。同时，GPU 还能提供高达 67TOPS 的 AI 算力。

NPU 性能大涨，整体 AI 算力冲上 120TOPS

AI PC 这个概念，可以说最初就是英特尔主导的，随后也被整个 PC 行业所共同介绍。但公允地讲，英特尔现售的 AI PC 芯片酷睿 Ultra 在很多方面难以支撑「AI PC」的概念，除了 Windows 系统没有跟上之外，AI 算力也是基础因素之一。好在，Lunar Lake 也迎来了一波 AI 性能大升级。英特尔宣称，Lunar Lake 处理器的 NPU 达到了 48TOPS 的 AI 性能，相比酷睿 Ultra 上的 NPU 算力提升了四倍不止。作为对比，新一代笔记本电脑芯片中，骁龙 X 系列的 NPU 算力是 45TOPS，锐龙 AI 300 系列的 NPU 算力是 50TOPS。

尔此外，在异构计算下，NPU 加上 CPU 的 5TOPS、GPU 的 67TOPS，Lunar Lake 处理器整体能够提供高达 120TOPS 的算力。不过在小雷看来，笔记本电脑受限于续航，异构计算更多承担的是临时性的重负载 AI 任务。而要将生成式 AI 技术应用到 PC 的基础体验之中，则必须充分利用起低功耗高 AI 性能的 NPU。这其实也是微软在下一代 Windows 11 AI PC 的标准中着重强调 40TOPS 以上算力的关键原因。所以从这个角度来看，就算是 NPU 我们也不能只看最高算力，还要看功耗表现。不过，这一点还是要以后续的实际测试为准。而除了算力，影响 AI 实际运行表现的其实还有内存。我们都知道，现在很多时候限制 AI 实际运行表现的并非计算，而是传输，更直接地说是内存带宽和延迟。当然，往大了说，内存的改进也会影响 CPU 以及 GPU 的实际表现，从而影响设备的整体性能。这可能也是为什么，英特尔选择在 Lunar Lake 中直接封装了内存。

把内存焊上芯片，英特尔也要「统一内存」

在主题演讲上，当英特尔 CEO 帕特·基辛格（Pat Gelsinger）手持展示 Lunar Lake 的时候，所有人都注意到了：Lunar Lake 还封装了两颗内存。

作为英特尔首款采用封装内存的芯片，Lunar Lake 有 16GB 和 32GB（双通道）LPDDR5X 两种配置，单芯片运行速度高达 8533MT/s。该内存支持 16bx4 通道，与传统的 PCB 嵌入式设计相比，PHY 功耗降低了 40%，面积节省了 250 平方毫米。在当下，这种设计我们已经不陌生了，比如消费级中苹果 M 系列芯片就采用了统一内存架构，此外，英伟达的高端加速卡如 H100、B200 都是直接将内存（包括 HBM）焊在 GPU 和 CPU 旁边，封装成一个芯片。这样做的好处也非常明显，首先是可以显著提升数据传输速度和系统响应时间。内存与处理器之间的距离缩短，大大减少了数据传输的延迟，提升整体系统性能。这对于需要高带宽和低延迟的应用，例如图形处理、AI 计算和高性能计算任务，尤为重要。

其次是有助于降低功耗。同样因为传输距离缩短，也减少了数据传输过程中的能量损耗，同时配合更先进的制造工艺，有助于延长设备的续航，特别适用于移动设备和笔记本电脑。再有，在芯片里封装内存也可以简化主板布局，减少主板上的元件和连接。这不仅减少了生产成本，还提高了系统的可靠性。更紧凑的设计使得设备在重量和体积上有所减少，进一步提升了便携性。这对于超薄笔记本和移动设备来说，同样是一个重要的优势。

但封装内存也有不可回避的问题，首先就是可扩展性和可维修性的降低。这很好理解，毕竟已经焊在芯片里，你不可能对内存进行后续的升级，同时如果内存坏了也基本不存在修理的可能，也只能更换整个芯片甚至电脑。事实上，PC 供应链之前就对此表达了不满。由于 Lunar Lake 处理器的内存与 CPU 的捆绑封装策略，OEM 厂商将无法单独采购内存模组，只能采购不同内存规格的 Lunar Lake 处理器，很大程度上限制操作空间，并可能导致相关厂商失去内存业务。从更大的层面来说，考虑到英特尔在移动处理器市场的统治，Lunar Lake 处理器的内存与 CPU 的捆绑封装策略，可能彻底影响 OEM 厂商提供多样组合的能力，减少了 CPU、内存、固态硬盘的丰富规格选择，失去 Windows 阵营原有灵活性。如果说苹果在封闭生态还能完全压制反对者的声音，那英特尔能做到吗？恐怕也有待时间的验证。

写在最后

「与 Jensen（英伟达 CEO 黄仁勋）不同的是，我们相信摩尔定律依然活着，而且还活得很好。」基辛格在演讲开始就强调，在一块芯片上封装十亿个晶体管后，希望未来能封装一万亿个晶体管。虽然依旧是 PC 行业的绝对巨头，但蓝色巨人面对的挑战依然很多、很大，在摩尔定律之外，数据中心业务面临英伟达的强势进攻，代工业务则还在积蓄力量的阶段，最强势的 PC 客户端业务则也面临着 Arm 阵营前所未有的挑战。但最终，一切还是要靠产品说话，Lunar Lake 做了很多的改变，这些改变是否能帮助英特尔准备应对 PC 领域的挑战，我相信会是接下来很多人关注的重点之一。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F207ZGT6	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet	ECAD模型下载ECAD模型	$13.88	查看
ATMEGA328P-MU	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 32VQFN	ECAD模型下载ECAD模型	$2.5	查看
ATMEGA8515L-8AU	1	Microchip Technology Inc	IC MCU 8BIT 8KB FLASH 44TQFP	ECAD模型下载ECAD模型	$4.23	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F207ZGT6

STMicroelectronics

High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet