日前,“TOP500”发布最新运算速度排行榜,日本理化学研究所计算科学研究中心(神户市)的新机型 Fugaku 以每秒 41.553 京次的运算速度超越了美国超算 Summit,跃居全球首位。Fugaku 登顶的消息被媒体争相报道,一些分析文章把 Fugaku 夺冠和苹果弃用英特尔,改用 ARM CPU 的事情联系起来大肆鼓吹,仿佛 ARM 将要取代 X86 成为 CPU 的王者。铁流认为,一些媒体的报道用力过猛,已经偏离事实了,就超算来说,采用 ARM CPU 处理器夺冠成绩值得肯定,但整体市场还主要是 X86 CPU 或 X86 CPU+加速器。
富士通 Fugaku 和 A64FX 值得肯定
日本超算一直自成一体,早些年的京就采用 SPARC 处理器,如今选择 ARM,而不是主流的 X86,估计也和日本企业习惯于自成一体的做法有关。
Fugaku 和排名第 37 的 Flow,之所以把处理器指令集从京的 SPARC 改成现在的 ARM,铁流猜测一方面和软银收购了 ARM 有关,另一方面与 SPARC 逐渐式微也有关系。由于 X86 授权拿不到,SPARC 又逐步式微,因而选择近年来风头正盛,且被日本企业收购的 ARM。
Fugaku 超算和 Flow 采用的是富士通研发的 A64FX 处理器,这款处理器曾经在 Hotchips 会议上亮相,集成了 52 个核心,配备 32GB HBM 2 内存,带宽 1TB/s,浮点性能 2.7TFLOPS,使用 7nm 工艺生产。
A64FX 的 52(4+48)个核心和 SW26010 的 260(4+256)个核心有相似之处,A64FX 是四个管理核心+48 个运算核心,SW26010 是 4 个管理核心+256 个运算核心。得益于 SVE 指令支持 512bit 浮点运算单元,这使得 A64FX 的浮点性能大幅强化。
SW26010 相对于 CPU+加速器的组合有一个优势,那就是共享存储避免了显示拷贝。如果采用 CPU+加速器的组合,数据需要在 CPU 和加速器之间来回倒腾,会带来额外开销。SW26010 的设计则避免了这一点。A64FX 采用了和 SW26010 类似的管理核心+运算核心设计,因而在这方面,可能同样具有这种优势。根据富士通的规划,Fugaku 只是阶段性成果,下一步计划升级到 1000PFLOPS。
炒作 ARM 处理器优势纯属莫名其妙
诚然,Fugaku 和 A64FX 表现出色,但一些媒体把 Fugaku 登顶和苹果换芯两件事情联系起来大肆鼓吹,仿佛 ARM 将要取代 X86 成为 CPU 的王者,这就未免有些不妥了。
就苹果抛弃英特尔 CPU,选择 ARM CPU 的事情来说,苹果换芯并非技术因素,而是商业因素。就桌面 CPU 的性能、功耗、成本、生态而言,X86 已经平衡的非常好了,全球暂时找不出在桌面 CPU 的性能、功耗、成本、生态等方面超越英特尔的公司。苹果把 X86 处理器换成 ARM 处理器,主要还是基于苹果一贯的商业逻辑,意图打造苹果自己的闭环生态链,进而实现供应链的高度掌控。这样一来,就避免 CPU 上被英特尔分去一杯羹,在 CPU、OS 全部自己掌握后,苹果可以借此获取高额利润。
就 A64FX 来说,从数据上看,Fugaku 和 A64FX 很出色,Fugaku 的双精度浮点性能是 Summit 的 2.8 倍,从功耗上看,Fugaku 也是 Summit 的 2.8 倍。也就是说,在性能功耗比这项属性上,Fugaku 相对于 Summit 并没有提升。必须指出的是,A64FX 采用的是 7nm 工艺,而 Summit 的 Power9 是 14nm 工艺,GV100 是 12nm 工艺,在处理器工艺领先一代的情况下,Fugaku 相对于 Summit 的性能功耗比并没有提升。作为对比,当年神威太湖之光夺魁时,在绝对性能和性能功耗比两项参数上都有明显提升。
虽然 ARM 的鼓吹者把低功耗和 ARM 划等号,国内还搞了一个绿色计算产业联盟,打着绿色环保的名义,挂羊头卖狗肉推广 ARM 服务器。但从实践上看,指令集对 CPU 性能、功耗的影响已经微乎其微了,真正对 CPU 性能指标有巨大影响的是设计水平和制造工艺。一些媒体用 Fugaku 登顶和苹果换芯论证 ARM CPU 具有先天优势,将要取代 X86 CPU 完全是莫名其妙。
X86 CPU 依然是超算主流选择
近年来,神威太湖之光、Summit、Fugaku 相继在 TOP500 榜单上夺得第一,三款超算处理器的指令集分别是 SW64、Power、ARM,由于冠军往往吸引了更多的目光,给人一种感觉,仿佛 X86 CPU 在超算里已经落伍了。但只要看一下 TOP500 榜单就会发现,X86 CPU 在 TOP500 里几乎是刷榜的存在。
铁流查阅了 TOP500 资料,其中,采用 X86 处理器的超算有 481 台,采用 Power 的超算有 13 台,采用 ARM 的有 4 台,采用 SPARC 的有一台,是富士通的京,采用 SW64 的有一台,是神威太湖之光。
(HPC TOP500 里非 X86 CPU 机器,500 台里共计 19 台)
从宏观数据上看,X86 依然是超算的绝对主流,SW64、Power、ARM 的占比非常少。由于 X86 的市场份额高,这使 X86 超算在应用方面更加便利,相比之下,采用 SW64、ARM 处理器的超算则面临软件移植的问题,此前,非线性大地震模拟应用荣获戈登贝尔奖,就是工程师将这个应用移植到神威太湖之光超算上。相关部门为了扩展神威太湖之光的应用,也是花了大力气鼓励大家去移植应用。由于日本企业在超算京上已经积累了 3000 多项应用,未来日本企业也会经历应用移植这个过程。
总而言之,X86 CPU 依然是超算主流选择,而且应用丰富,便于商业化。Fugaku 和神威太湖之光这类超算,如果要想把超算性能真正发挥出来,必须进行应用移植,在特定行业,或者自成一体的情况下自己玩是没问题的,但要商业化全球出售,恐怕就逊色于 X86 超算了。
中美欧日角逐 E 级超算
虽然日本这几年经济持续低迷,在全球超算竞赛上逐步掉队,在京之后罕有高性能超算问世,但日本企业的技术底子还是在的,本次的 Fugaku 则是日本超算实力的体现。目前,中国天河、曙光、神威 E 级超算正在研发中,美国和欧洲也在研发 E 级超算。未来几年,中美欧日可能会就 E 级超算进行一场竞赛。