作为苹果春季“Peek Performance”产品发布会的一部分,苹果公布了M1系列的第四个也是最后一款SoC,M1 Ultra。M1 Ultra主要针对台式机(特别是新款Mac Studio),苹果新款SoC在CPU和GPU工作负载方面再次提升到一个新高度。苹果向业界抛出了一个新的曲线球,不仅将两个M1 Max拼接到一个芯片封装中,而且将这两个芯片作为一个独立的单片GPU,标志着芯片制造行业的又一个第一次。
早在去年秋天苹果宣布M1 Pro和强大的M1 Max时,许多人认为苹果已经完成了M1芯片的研发。毕竟,你怎么能超越一个432mm2的芯片呢,这已经突破了台积电N5工艺的制造极限。答案是,苹果可以做得更好,或者可以说加倍的好。至于该公司最后的M1芯片设计,即M1 Ultra,苹果已将两个M1 Max拼接在一个芯片上,其硬件的所有性能优势都会翻倍。
最终的结果是一个芯片,毫无疑问,是目前为止最有趣的消费类SoC设计之一。M1 Ultra与目前市场上的任何其他消费类芯片都不太一样。虽然双芯片策略对多线程CPU和GPU工作负载的好处远大于单线程任务(苹果在这个领域已经开始落后了),但在这个过程中,他们在GPU方面有了新的突破。通过使M1 Ultra的两个芯片透明地呈现为单个GPU,苹果已经启动了一场新的技术竞赛,将多芯片GPU用于高端消费者和工作站硬件中。
M1 Max + M1 Max = M1 Ultra
新的M1 Ultra的核心不是什么新鲜的东西,我们都知道是M1 Max。具体来说,苹果在这里使用了两个M1 Max,然后将它们连接在一起,形成一个由1140亿个晶体管组成的巨大混合体。
由于M1 Max在过去5个月里一直在发货,该芯片的基本架构(及其底层模块)在这一点上是已知的。在这方面,M1 Ultra并没有引入任何新的终端用户功能,相反,该芯片是通过在单个芯片上放置第二个芯片,将苹果的M1架构进一步扩展。
通过将两个M1 Max放进单一的封装,苹果几乎在每种方式上都将他们所掌握的硬件数量增加了一倍。这意味着有两倍的CPU内核、GPU内核、神经引擎内核、LPDDR5内存通道,以及两倍的外围设备I/O。
在CPU方面,这意味着苹果现在提供20个CPU内核。包括16个Firestorm性能核,4个Icestorm能效核。鉴于M1 Ultra只针对台式机(与M1 Max不同),能效核的作用并不大,因为台式机并不需要那么节能。然而,正如我们所看到的,它们本身就是相当强大的内核,并将帮助增加芯片在重度线程情况下的CPU吞吐量。
和苹果发布产品的典型做法一样,该公司在此没有透露时钟速度。由于这款芯片主要用于台式机,意味着如果他们愿意,苹果可以把时钟速度推得比M1 Max高一点,但这样做也意味着要牺牲最佳的能效点。
在实践中,如果M1 Ultra的CPU内核时钟比M1 Max高得多,多少会让人感到惊讶。这对苹果的CPU性能来说是喜忧参半的。对于多线程工作负载,16个Firestorm内核将提供足够的吞吐量,在一些性能图表中名列前茅。但是对于单线程/轻线程工作负载,Firestorm已经被更新的架构所超越,比如英特尔的Colden Cove CPU架构。因此,不要指望看到苹果在这里恢复单线程性能的领先优势。相反,这都是关于MT,特别是能效问题。
同时,M1 Max芯片数量增加一倍,意味着苹果能够将芯片上的内存通道数量增加一倍,从而使其整体内存带宽增加。M1 Max有16个LPDDR5-6400通道,共408GB/s的内存带宽,而M1 Ultra则将其增加到32个LPDDR5通道和800GB/s的内存带宽。而与M1 Max一样,这是通过将LPDDR5芯片直接焊接到芯片封装上来实现的,M1 Ultra上共有8个芯片。
加倍的内存芯片也让苹果将其硬件中可用的内存总量增加了一倍。M1 Max最高为64GB,M1 Ultra最高为128GB。这仍然比真正的高端工作站(如Mac Pro)的内存少,但它使苹果领先于所有高端PC台式机,对内容创作者人群应该是足够的。
正如我们在M1 Max推出时看到的那样,苹果已经为他们的SoC提供了比CPU内核所能消耗的更多的带宽,所以加倍的带宽不可能产生太大的影响,而只是确保CPU内核能像在M1 Max上那样得到充分的供给。相反,所有这些额外的内存带宽是为了跟上GPU内核数量的增长。
这让我们看到M1 Ultra最有趣的方面,就是GPU。凭借32个GPU内核,M1 Max已经创下了单片集成GPU的记录。而现在,苹果已在单个芯片上增加到64个GPU内核。
与几十年来工作站中常见的multi-die/multi-chip类型CPU配置不同,multi-chip GPU配置是一个完全不同的野兽。对于高端部件来说,GPU所消耗的内部带宽,远超过1TB/s,这使得将它们拼接起来在技术上一直是个巨大障碍。因此,在传统的多GPU系统(如Mac Pro)中,每个GPU都是作为一个独立的设备出现在系统中,而由软件供应商来寻找创新的方法来一起使用它们。在实践中,这意味着让多个GPU在不同的任务上工作,因为缺乏带宽意味着它们不能有效地在同一个图形任务上一起工作。
但如果能以某种方式将多个GPU拼接起来,使其具有惊人的die-to-die的带宽(足以复制其内部带宽)那么就可能在一个任务中一起使用它们。这使得以一种透明的方式组合多个GPU成为多GPU设计的圣杯。这是多家公司十多年来一直在研究的问题,而苹果成为了第一家完成这项任务的公司,开辟了崭新的领域。
UltraFusion:苹果的2.5D芯片封装方法使这一切成为可能的秘密(苹果至今还在保密)是M1 Max在其一个边缘有一个非常高速的接口。这个接口在芯片interposer的帮助下,可以将两个M1 Max芯片连接起来。
苹果将这种封装架构称为UltraFusion,它是业界2.5D芯片封装的最新范例。虽然各个实施方案的细节非常不同,但该技术的基本原理是相同的。在所有情况下,在两个芯片下面放置某种interposer,然后两个芯片之间的信号通过interposer进行传输。芯片的超精细制造能力意味着可以在两个芯片之间铺设大量的线路(在苹果的案例中,超过10000条)这使得两个芯片之间可以实现超宽、超高的带宽连接。
官方说,苹果只说他们在这里使用的是silicon interposer,这是这项技术的通用术语。但是,从苹果的宣传视频和模拟动画来看,他们似乎在使用某种小型硅桥(silicon bridge)。这与英特尔的EMIB技术或Elevated Fanout Bridge(EFB)技术在实施上相似。这两种技术都已经在市场上使用了多年,所以苹果不是第一个使用该技术的厂商。但他们使用它的目的相当有趣。
通过UltraFusion,苹果能够在两个M1 Max芯片之间提供令人难以置信的2.5TB/s的带宽。即使我们假设这是一个总数(将两个方向加起来),这仍然意味着他们在每个方向有1.25TB/s的带宽。所有这些都接近于一些芯片使用的内部带宽,并超过了苹果800GB/s的DRAM总带宽。
这里重要的一点是,苹果已经成为第一个将两个GPU与如此巨大的带宽结合起来的公司。这使他们能够尝试将两个GPU作为一个单一的设备呈现给操作系统和应用程序,因为它允许他们在必要时在GPU之间快速切换数据。
但也应该注意到,有很多细节可以决定这种方法是否有用。例如,鉴于GPU的高性能,2.5TB/s是否足够?以及从GPU到GPU的额外延迟对性能的影响是什么?仅仅因为苹果通过将GPU内核拼接在一起而使其数量增加了一倍,并不意味着苹果的GPU性能增加了一倍。但最终,如果它的运行效果还不错,那么对未来的GPU设计的影响将是巨大的。
GPU性能:超越GeForce RTX 3090
通过UltraFusion,苹果已经成为第一个将两个独立的GPU透明地结合起来的芯片供应商。虽然我们还要等待后续的效果,但苹果对他们的成就及其性能感到兴奋。
特别是,苹果声称M1 Ultra的GPU性能超过了英伟达的GeForce RTX 3090,后者是目前市场上速度最快的显卡。此外,他们的能耗仅为100多W,比RTX 3090少200W。
从性能的角度来看,假设他们的多GPU技术如宣传的那样有效,苹果的说法看起来是合理的。尽管RTX 3090的速度非常快,苹果却投入了更多的晶体管。英伟达的GA102 GPU有283亿个晶体管,而M1 Ultra是1140亿个。当然,并非所有都被用于M1 Ultra的显卡,但有了这么多的晶体管,苹果不必羞于在这个问题上投入了更多的硅。
苹果的硅数量也是其低能耗的关键之一。正如我们在M1 Max上已经看到的,苹果已经建立了一个足够宽的GPU,可以在电压/频率曲线上保持良好和较低的时钟速度,从而使整体功耗下降。相比之下,RTX 3090的设计是为了追求性能而不考虑功耗,使英伟达能够获得出色的性能,但只能通过在电压频率曲线上保持高位。当然,苹果在这里享有巨大的制造工艺优势,使用台积电的N5工艺而不是三星的8nm工艺。
尽管如此,考虑到苹果试图通过透明的多GPU设计实现的突破性本质,必须强调的是,至少在目前,对苹果的性能主张应该有所保留。苹果通常不会做半生不熟的事,但由于以这种方式拼接两个GPU还没有被证实,所以保留一点怀疑是正常的。
虽然苹果从他们采用自研的Mac芯片的第一天就表示打算扩展他们的芯片设计,但M1 Ultra还是超出了大多数人的预期。在达到了单个芯片实际尺寸的极限之后,苹果已经采取了合乎逻辑的下一步,开始在一个芯片上放置多个芯片,以建立一个工作站级的处理器。考虑到各种限制因素,这一步是必要的,但从历史上来看,这一招甚至比以往苹果的典型做法还要前沿。
最终的结果是,苹果宣布了一个在多个层面上都没有竞争对手的SoC。对于CPU来说,在工作站中采用multi-die/multi-chip是非常有效的策略,但在GPU上这样做则可能使苹果处于一个非常独立的水平。如果他们的透明多GPU技术像该公司所说的那样有效,那么苹果将在性能和开发制造这种芯片所需的尖端技术方面比他们的竞争对手领先更多。在这方面,虽然苹果在UltraFusion 2.5D芯片封装技术方面有点落后于行业,但他们试图用它来弥补失去的时间。
我们非常渴望看到M1 Ultra在现实世界中的表现。苹果已经为M1 Max设定了一个相当高的标准,现在他们的目标是通过M1 Ultra超越它。如果他们能实现这些目标,那么他们将在短短6个月的时间里两次为SoC设计制定了新的高点。这的确是一个令人兴奋的时代。
[参考文章]
Apple Announces M1 Ultra: Combining Two M1 Maxes For Workstation Performance — Ryan Smith