但在算力的源点——数据中心,并不是算力最强者才会赢到最后。
除了狂暴的计算能力之外,数据中心的供电、散热、运维等等成本开支,加在一起反而会成为数据中心开销的大头。说白了,数据中心更看重的,是「性能功耗比」。也就是说:消耗一度电,能提供多少算力。
过去十几年,基于x86架构的处理器在数据中心是绝对王者。今年2月,市场研究机构Counterpoint发布了全球云服务器的相关调研,91%的市场份额仍由x86占据。
然而在近几年,服务器市场的格局已经发生了巨大的转变,越来越多新的处理器架构开始涌入数据中心市场,并在不断挑战传统架构的领导地位。
特别是说到低功耗,人们自然会想到在移动互联网时代风生水起的ARM架构。ARM的RISC架构有着天生的低功耗能力,智能手机和移动设备取得突破性成功后,自然也瞄准了数据中心市场这个更大的蛋糕。全球知名技术市场分析与咨询国际公司Canalys CEO史蒂夫·布雷热(Steve Brazier)甚至大胆预测:
“2026年之前,云服务器架构芯片的半壁江山将归于ARM。”
随着云服务工作负载的快速增长,数据中心基础设施亟需突破「性能功耗比」的瓶颈,这也带来了宝贵的机会。例如,2017年才创办的芯片设计初创企业Ampere Computing(安晟培半导体,下文简称Ampere),就利用自研的云原生处理器架构在激烈的竞争中异军突起。五月底,Ampere推出了最多集成192个内核的AmpereOne系列处理器,内核数量打破行业记录。
我详细梳理了这家初创公司的技术进阶之路,就是为了回答一个问题:这家成立仅5年多的芯片公司,到底做对了什么?
我的答案很简单:把握正确的时机,用正确的技术,做正确的产品。
x86架构,数据中心不可撼动的王?
为了更好的理解Ampere异军突起的原因,首先应该来看为何x86架构统治了数据中心这么久。
在芯片行业,一旦推出成功的服务器芯片架构,加之构建完善的生态,等同于拿到一张长期饭票,这里说的就是x86架构。
其中,最大的受益者非英特尔莫属。在x86架构的数据中心的市场里,英特尔市场份额曾一度占90%以上。
早在1978年,英特尔就用x86架构打响名堂,通过高效指令执行、快速访存、单核多线程能力等优势,狙击RISC架构处理器市场。随之,从芯片、操作系统、开发工具、数据库到各类服务器端的应用软件,x86架构一一建立起完善的体系和生态。举个例子,根据Linux基金会的数据,英特尔是Linux操作系统内核代码的最大贡献者,超过了红帽、IBM等软件和系统公司。这是因为Linux作为数据中心的重要基石,承担了软硬件结合的关键功能。因此,英特尔对Linux内核的贡献,其实是帮助x86架构更好的配合Linux,反过来也会让更多开发者选择x86作为底层架构做开发。
因此,就算传统x86架构并非为云端业务设计,但是依靠其客户端在超过十几、二十年间占据市场的积累,高度的用户粘性也让x86抢先预定了大量熟悉的数据中心端客户。
根据Counterpoint在今年2月底发布的全球云服务器数据,x86占据着91%的市场份额,其中AMD的市占率提升至20%,英特尔跌至71%。从数据来看,相比其他处理器架构,x86似乎仍然有着近乎统治级的优势。
但事情已经悄悄起了变化。
机遇来临:算力不再是唯一标准
当算力需求不大时,基于x86的CPU已经能够很好的满足应用的需求。外加成熟的生态和基础设施,x86的帝国似乎无可撼动。
从技术角度来看,CPU属于通用芯片,它最大的优点就是能做很多很多事情,但缺点就是虽然什么都能干、但什么都做不到最好。比如在人工智能领域,CPU的处理性能就远远落后于GPU。此外很多人意识到,既然人工智能这么重要,为什么不直接为它单独设计制造一种芯片、来专门为它服务呢?结果发现这么想的人还不止一个,于是几乎在同一时间,世界上出现了很多AI芯片公司,就连谷歌和百度这些互联网公司,也纷纷下场做AI芯片了。
这些看似自然而然的进化,背后其实有着很强的客观规律。1987年,在日立半导体和索尼担任高级职位的牧本次生提出,芯片的类型有规律地在“定制化”和“通用化”之间不断交替,变化一次的周期大约为10年,这个发现也被称作牧本周期。由于这个变化的过程特别像一个钟摆,因此牧本周期也被业界称作半导体行业之摆。
这个和中国古人说过的「分久必合,合久必分」其实有着异曲同工之妙。当通用CPU架构发展到一定阶段,它必然为了通用性而承载了太多「冗余」的功能,而这些不必要的部分,会极大影响它的性能上限和功耗下限。
相比之下,如果针对某个应用领域做定制优化,就能抛掉那些不必要的负担,轻装上阵,出奇制胜。
人工智能芯片如此,云原生处理器也如此。
当前,数据中心发展演变出新的需求,算力固然是重要标准,但能源需求、土地制约、ESG法规要求、扩展性要求等也成为现代数据中心都需要考虑的重要因素。近几年,绿色数据中心成为人们关注的重点。而背了太多通用性包袱的x86架构,就逐渐无法满足云数据中心的发展需求了。
Ampere究竟“高”在哪里?
事实上,ARM几乎垄断智能手机芯片架构,却在云服务器市场上难以复制奇迹,这主要在于X86成熟的产品和健全的生态。即便ARM早在2008年布局更广阔的PC和笔记本电脑市场、数据中心,AMD、博通、高通、惠普等企业也做过基于ARM架构服务器芯片的尝试,但均未能走远。唯独苹果在ARM架构上取得的突破,给众多芯片的新贵带来了丰富的想象空间,尤其在近几年突飞猛进的数据中心。
前英特尔总裁Renee James另开蹊径,在2018年创立Ampere,推出业界第一个基于ARM指令集的云原生服务器微处理器架构,走出了不一样的“云原生”道路。
云原生处理器至少需要集成三个「正确的技术」:高能效比、性能稳定、高可扩展。我们一个一个来看。
首先,云计算应用往往有着大量用户和大量应用,这对单核可预测性能、功耗,以及内核密度都提出了更高的要求。因此,当过去很多厂商使用双路服务器和超线程内核的处理器来提供足够的算力时,Ampere可以在单路服务器和单线程内核的处理器上通过堆核的方式,持续提升更高的算力、更多的IO、更高的内存,同时降低了双路平台的复杂程度和能耗,实现更好的解决方案。
第二,云原生处理器需要保证稳定一致、可线性扩展的性能。比如,单线程内核无干扰(相对x86的超线程),恒定的最大主频不降频(相对x86的睿频跳频机制),从而保证性能的稳定、而不是动态跳变。此外,处理器性能的线性增长可以带来更高的CPU利用率。通常来说,传统架构中CPU使用率的安全水位线是50%、甚至30%,根源就是跑更多核时性能并不能明显提升,到达安全水位时无法利用CPU剩下的内核。相比之下,针对云原生而优化的处理器架构可以进行线性扩展,使得CPU可以将安全水位提高到70%,甚至更高。
第三,云原生处理器需要具备横向扩展能力。特别是在当前,云计算软件走向以微服务为代表的横向扩展架构,即从scale-up到scale-out。因此,CPU硬件架构也需要做相应的改变,从硬件层面更好的支撑横向扩展,这也是云原生处理器相比于通用处理器最大的区别。
为此,Ampere做出了三个技术选择:
选择1:提供更多线性扩展的单线程内核,而不是利用超线程等技术弥补物理核数少,平行吞吐性能低的问题。
选择2:提供高性能的通用计算内核,而不是利用额外的专用加速单元提升性能。
选择3:利用最大化单机架性能来实现数据中心级别的可扩展性,而不是依赖单核或者单CPU的scale-up。
(Ampere云原生自研内核性能指标,来源:Ampere官网)
采用云原生的自研核来设计CPU,可以适配不断扩展的云端工作负载,并可根据不同用户的需求进行扩展、收缩以及迁移,能够在不建设更多的数据中心和更多设备的情况下,最大限度地提供算力,并且也对安全性做出增强。
根据正确的技术路线,得到正确的产品就是水到渠成的事情:5月19日,Ampere官宣新一代AmpereOne系列处理器,由台积电5nm 工艺制造,拥有192 个单线程内核,创下业界最多内核数量的纪录,大大超过英特尔、 AMD 服务器的核心数。内核数量的提升,意味着AmpereOne 能为云工作负载提供更高的性能、更高的可扩展性以及更高的密度,为大型数据中心的规模化发展打下基础。
此外,AmpereOne还集成了大型云优化私有缓存,比上一代增加了8通道的 DDR5 内存和128 通道的 PCIe Gen5接口,满足AI、超算等高增长的云应用需求,帮助实现单机架性能最大化。在AI大模型浪潮之下,AmpereOne还针对AI推理做了架构优化,较其他 CPU 有 2 倍以上的性能优势,以适应生成式 AI 算力爆发的需求。
(Ampere处理器性能指标总览,来源:Ampere官网)
通过云原生处理器,AmpereOne进行 AI 推理,不仅能打破效率瓶颈,实现性能最大化,也可以解决云服务提供商的行业痛点,大大压缩AI 推理所产生的高能耗。
根据Ampere给出的数据,Ampere 云原生处理器可助力性能提升3倍,同时能耗降低2.8倍。其独特的云内核与架构特性能够提供无可比拟的云性能、可扩展性以及效率。与x86服务器CPU相比,Ampere Altra系列可用50%的能耗,提供200%的性能。
(AmpereOne的AI性能提升,来源:Ampere官网)
随着各地对数据中心的扩张以及背后飙升的电力需求,Ampere充分发挥了ARM架构的低功耗优势,可以解决数据中心可持续运营的当务之急。不仅如此,ARM的生态也在不断提升,更好的适配越来越多的服务和应用。Ampere首席产品官Jeff Wittich强调,除性能、功耗领先x86芯片外,Ampere的产品还可在云环境下运行所有应用,涵盖Web服务、数据库和视频编码,AI推理等场景。
对于众多云服务器客户来讲,不容忽视的一点是Ampere的“高性价比”。根据国外测评专业网站Phoronix的报道,Ampere的另一个主力产品Altra Max只需5800美元,而AMD的EPYC 7763 需要7890美元,英特尔的Xeon Platinum 8380处理器则达到8099美元。
基于性能、能效、可扩展性、高性价比的优势,Ampere帮助数据中心以更少的资源满足更多的算力需求,借助「绿色数据中心」这个新的趋势起飞,成立5年左右就迅速收获市场认可。
目前,全球已经有七家超大规模的数据中心使用Ampere产品,腾讯云、阿里云、京东云、微软Azure、百度云等云计算厂商也推出了Ampere芯片的云端实例。
Ampere走强不设限
云服务器市场有多大,Ampere云端业务的潜力就有多强。
面临巨大的算力需求、严格的环保要求、高昂的运营成本压力,数据中心越来越需要能够帮助降本增效、提供更高能效和性能的服务器,这给Ampere带来广阔的空间。
“英特尔和AMD正在密切关注着Ampere,”数据中心市场情报先驱Liftr Insights的首席执行官泰博·沙特(Tab Schadt)表示,“他们清楚,Ampere正在一步步占领他们在整个市场的份额。”
2021年,Ampere首次跻身世界前六的云供应商,随后在云市场上的势头一发不可收拾,在2022年11月甚至达到了同比443%的增长。
除了有节奏地上线刷爆业界内核数量的云原生处理器,Ampere也马不停蹄地壮大自己的生态,积极与GCC、LLVM等行业组织、操作系统内核、编译器、开源固件进行合作,确保所有产品的适配性和优质体验。随着市场和客户需求不断增加,Ampere也在坚定做自研核,通过更好的性能、功耗以及可扩展性,帮助Ampere的产品在业内持续领先。
从数据中心市场情报先驱Liftr Insights的调研发现,在公共云领域,Ampere已经从三年前的默默无闻发展到当今将近2%的市占率。其中,微软Azure贡献最大,超过了69%,而阿里巴巴、谷歌、甲骨文、腾讯等客户也在不断扩大各自的Ampere云端实例。
数据中心的可持续源于内核。对于坚定做云原生自研核的Ampere而言,它在云端业务“开路”的好戏才刚刚开始。
(注:本文不代表老石任职单位的观点。)