昨晚Apple的MacBook Pro 14”和16”的神秘面纱终于揭开,新的M1 Pro和M1 Max芯片也终于亮相。
M1 Pro和Max是去年M1的后续产品,Apple开始用自研芯片全面取代x86芯片。M1取得了很大成功,展示出了笔记本市场上最优秀的能效。尽管M1速度很快,但仍然属于小型SoC(甚至还支撑着iPad Pro产品线),以及相应的较低的TDP,仍然在竞争中不及更大、更大功耗的芯片。
但这次的两款芯片,Apple全力在追赶性能,更多的CPU内核、GPU内核…… 苹果现在也增加了功耗预算,和iPhone与iPad的性质完全不同。
M1 Pro:10核CPU、16核GPU、337亿个晶体管,245mm²
先来看M1 Pro,为Apple所谓的no-compromise笔记本电脑SoC奠定了基础。
Apple从封装开始演示,M1 Pro仍然非常有特点,包括SoC和内存封装在单个PCB上。这与其他传统芯片形成鲜明对比,例如AMD或Intel的DRAM要么在DIMM插槽,要么焊在主板上。Apple的方式显然会提高能效。
Apple透露,与M1相比,M1 Pro的内存总线增加了一倍,从128bit LPDDR4X接口转向更宽、更快的256bit LPDDR5接口,提供高达200GB/s的系统带宽。我们不知道这个数字是精确的还是四舍五入,但LPDDR5-6400接口的带宽将达到204.8GB/s。
Apple还非常给力地展示了M1 Pro和M1 Max的die shot,芯片的布局一目了然。从内存接口开始看,这些接口现在更加集成到SoC的两侧,而不是像M1那样沿着两条边缘展开。由于接口宽度的增加,我们看到内存控制器占了相当大部分。更有趣的是,Apple现在显然在内存控制器后面直接使用了两个系统级缓存(SLC)块。
Apple的SLC一直很突出,因为它们服务于整个SoC,能够扩大带宽,减少延迟,或只是通过避免内存任务中断来节省功耗,从而极大地提高了能效。这个新一代SLC与M1大不相同。SRAM单元区域看起来比M1大,虽然现在无法完全确认这一点,但可能意味着每个SLC中有16MB的缓存。因此M1 Pro的总SLC缓存可能是32MB。
CPU方面,Apple已将能效核的数量从4个减到2个。我们不知道这些核是否会与M1相似,或者Apple采用了A15 SoC的新IP,A15在这方面有一些更大的微架构变化。
在性能核方面,Apple增加了一倍,达到了8核。Apple的性能核在M1上令人印象深刻,但在多线程(MT)性能方面逊于其他8核SoC。性能核翻倍应该会有巨大的MT性能提升。
在die shot中,我们看到Apple似乎正在镜像两个4核块,L2 cache也镜像了。尽管Apple在这里引用了24MB的L2,但它相当像2*12MB的设置,使用的是类似AMD的core-complex设置。这意味着两个性能集群的一致性正在超越结构和SLC。当然,这是目前的猜测。
CPU性能指标方面,Apple与竞争对手进行了一些比较。特别是这里比较的SKU是Intel的Core i7-1185G7,以及Intel最新的Tiger Lake 10nm“SuperFin”CPU的Core i7-11800H、4核和8核版本。
Apple声称,在多线程性能方面,性能都大大优于Intel的任何芯片,且功耗要低得多。呈现的性能/功率曲线表明,在30W的相同功耗下,M1 Pro和Max的CPU吞吐量比11800H快1.7倍,11800H的功耗曲线非常陡峭。在相同性能水平上(使用了11800H的峰值性能),Apple表示,M1 Pro/Max相同性能水平下低70%的功耗。这个数字差异大的甚至有些尴尬。
除了强大的CPU外,Apple还在扩大他们定制的GPU架构。M1 Pro现在采用了16核GPU,计算吞吐量为5.2 TFLOP。有趣的是,这个巨大的GPU将得到更大的内存总线支持,以及可能是32MB的SLC。后者的作用基本上类似于AMD现在通过其GPU无限缓存实现的功能。
据称,Apple的GPU性能远超任何上一代竞争对手的集成显卡性能,因此他们选择直接与中端笔记本电脑的独显进行比较。在这种情况下,M1 Pro与GeForce RTX 3050 Ti 4GB对比,Apple的芯片以70%的功耗达到了相似的性能。这里的功耗约30W,目前还不清楚这是SoC的总功耗还是系统功耗,还是GPU本身。
除了GPU和CPU,Apple还指出他们大幅改进的Media Engine,现在可以处理ProRes和ProRes RAW的硬件加速解码和编码,这对内容创作者和专业摄像师来说是非常有吸引力的。Mac在视频编辑方面一直享有美誉,但RAW格式的硬件加速引擎将是一个杀手级应用,对这些专业用户来说是直接的卖点。
M1 Max:570亿个晶体管、432mm²的32核GPU怪物虽然M1 Pro在性能方面赶超了竞争对手,但M1 Max的目标是提供前所未有的性能,将GPU增加到32核。本质上,它不再是具有集成GPU的SoC,而是围绕着SoC的GPU。
M1 Max的封装略有变化,因为更大。最明显的变化是DRAM从2增加到4个,这也与内存接口宽度从256bit增加到512bit相对应。Apple强调了400GB/s的巨大带宽,如果是LPDDR5-6400,可能更准确地说是409.6GB/s。这种带宽在SoC中闻所未闻,但在非常高端的GPU中是正常的。
在M1 Max的die shot上,看起来相当奇怪。首先,GPU上方芯片的整个顶部看起来与M1 Pro基本相同,指出Apple正在重复使用大部分设计,Max只是在块布局中向下生长的。
另外两个128bit LPDDR5是很明显的,有趣的是,它们也在增加SLC块的数量。如果确实是每个16MB,那么整个SoC使用的是64MB片上通用缓存。除了明显的GPU用途外,确实想知道CPU能用如此巨大的内存带宽资源实现什么。
M1 Max真的很大。Apple说M1 Pro晶体管数量为337亿个,而M1 Max的晶体管数量高达570亿个。AMD宣传说520mm²的Navi 21 GPU为268亿个晶体管,采用的是TSMC 7nm工艺。由于Apple使用TSMC先进的5nm工艺,Apple用更小芯片尺寸装下了更多的晶体管数量。即使与NVIDIA最大的7nm芯片540亿个晶体管的GA100相比,M1 Max的晶体管数量仍然更庞大。
Apple展出了M1、M1 Pro和M1 Max的尺寸对比,它们确实为1:1的比例。在这种情况下,我们已经知道M1是120mm²,M1 Pro 245mm²,M1 Max约为432mm²。
32核GPU占据了大部分面积,Apple说GPU达到了10.4TFLOP。回到die shot,似乎基本反映了16核GPU的布局。这里首先想到的是,2个GPU协同工作,但GPU的两半之间似乎确实有一些共享逻辑。一旦我们看到系统的软件行为,可能会更清楚地了解这一点。
在性能方面,Apple正在与市场上最好的产品进行竞争,将M1 Max的性能与GeForce RTX 3080的性能进行比较,功耗要低100W(60W vs 160W)。Apple还与RTX 3080的100W TDP进行了比较,性能仍然优于Nvidia的独立GPU,同时功耗低40%。
我们等待新款M1系列芯片已经有一年多了,Apple不仅满足了这些期望,甚至超越了预期。M1 Pro和M1 Max看起来都是极具差异化的设计,与我们在笔记本电脑领域见过的任何设计大不相同。如果M1表明Apple在芯片方面的成功,那么M1 Pro/Max也毫无疑问为苹果的Mac产品奠定了更坚固的基础,已将竞争对手远远甩在了后面。
[参考文章]Apple Announces M1 Pro & M1 Max: Giant New Arm SoCs with All-Out Performance — Andrei Frumusanu