算力需求暴增,底层创新为云计算“续航”
十多年前,当业界还在探讨“云计算将给IT产业格局带来什么变化”时,也许并没有想到云计算会从当初的抽象构想成为全球产业变革的必由之路,并成长为重要的经济引擎。
时至今日,云计算推动的产业、商业和社会变革,已经汇聚成承前启后的关键力量,成长为数字经济的核心生产力,而面向ChatGPT等AI应用掀起的新革命,云计算的创新活力还将持续释放,芯片作为重要的算力支撑也将发挥更大的价值。
本期《芯事》人物:张献涛 —— 阿里云智能基础产品部副总裁、阿里云弹性计算产品线总经理
三步见证中国云计算发展
张献涛在回顾起云计算发展的早期阶段时调侃,“大约在2014年左右,当时还处于传统算力向云计算的转移过程中,用户多是中小站长为代表的个人开发者,负载可能就是一些中小企业的网站,不会有太多客户关注高可用性、高性能等指标。”
时间来到2015年,新一轮移动互联网爆发了,以互联网公司为代表的技术型企业,逐步推动传统IT系统向基于云的IT系统转移。“云计算的第二发展阶段拉开了大幕,对IaaS、SaaS高稳定性、高性能的需求爆发了。”张献涛说道,“也就是在这个时间节点,阿里云开始了战略转型,从传统的服务中小站长用户,面向移动互联网场景的大信息流、高实时性、高性能、高并发的场景做出调整。正因如此,我们也承接了移动互联网发展的一波红利,迎来了中国云计算市场的爆发式增长。”
2020年以后,云计算进入了第三发展阶段。张献涛表示,“云计算开始纵深发展,上云的趋势从消费互联网向产业互联网转移,以产业客户为代表的传统企业上云的诉求越来越明显。”
这对云计算其实提出了较大的挑战,因为需要保障客户业务在连续、不间断的情况下,能够迁移到云的架构。也正是在这个关键节点,阿里云开始了包括计算架构、处理器、存储等核心技术的创新变革。
软硬协同设计应“云”而生
在传统IT时代,软件和硬件之间的依存程度并不高,可以分离演进,并行发展。但是进入云计算时代,软硬件分离迭代的模式逐步显现出局限性。应用变得越来越复杂,算法、软件和硬件的隔阂,已经无法满足在超大规模计算场景下提升IT计算效率、降低计算成本的诉求。如何最大化发挥“云”的价值,实现应用快速上线且高效运行成为发展的关键。
“其实这也提供了一个机会,如果你对硬件、系统软件、中间件等都掌握的话,你就可以很好地进行软硬件协同设计,这是云计算时代一种新的技术红利。”张献涛表示,“我们当时就在深入思考,既然硬件系统、软件系统都是自研,下一步我们如何从软件定义硬件、定义芯片的视角,来做软硬件协同的设计?”
当时,传统的虚拟化技术应用到云计算过程中,其实存在非常多问题,比如算力损耗等,而这通常意味着计算成本可能会随之增加。张献涛谈到,“所以在当时的时间点上,我们首先需要通过软硬件协同设计,解决传统虚拟化技术带来的这些问题。不过这一挑战非常大,因为现有芯片无法满足这些需求,我们几乎评估了业界的所有芯片后,决定重新设计芯片、设计硬件、设计服务器的计算架构,并且对整个系统软件栈进行重构,这是一个浩大的工程。”
后来的事实证明,阿里云当时的这一决定极具前瞻性,使它既享受了软硬件协同设计所实现的技术红利,同时也给云计算客户带来更多收益,比如更低的成本、更优质的算力服务等。根据IDC数据,阿里云数年来稳居公有云市场排名第一的位置,并领跑金融云、视频云等领域。
从“芯”出发,为云而生
近年来,跨界造芯成为科技界的一大趋势,不论是云计算大厂、AI算法公司或是车企,对于芯片的关注度越来越高。在这些跨入芯片圈的企业中,阿里巴巴旗下的平头哥可以说是国内起步最早的企业之一,一个核心的研发方向就是数据中心芯片。
成立于2018年的平头哥,正处于云计算的拐点之上。
还记得2017年左右,阿里云的广告语“上云就上阿里云”,雄踞国内各大机场。短短一句话,传递了云计算当时正在进行的变革和创新——它不再是互联网企业的特有应用,而是逐渐蔓延到传统领域,向千行百业的企业发出“上云”邀请。一个趋势已经显现——云计算将扩展到大数据、AI、物联网等领域,共同成为传统企业进行数字化转型、我国发展数字经济必不可少的基础支撑。
而这一切,都在倒逼底层技术加速升级。对于当时的云计算巨头来说,头等大事就是如何满足企业多种多样的差异化需求?如何提供更具性价比的云服务?一方面是看得见的巨大蓝海,一方面是对性能效率最大化的迫切需求——在这些推动因素下,自研芯片就成了一种自然而然的选择。
倚天710是阿里巴巴第一颗为云而生的CPU芯片,由平头哥半导体自研,设计核心在于适配阿里云大规模、多线程、高并发的业务特点。倚天710采用Armv9架构,拥有128个核心、主频2.75GHz。通过将芯片设计与云场景的独特需求相结合,倚天710最终实现了性能和能效比的双重突破:性能超过当时的业界标杆20%,能效比提升50%以上。倚天710发布后,2021年天猫“双11”核心交易系统平滑迁移至倚天实例,算力性价比提30%。
随着部署规模的不断扩大,自研芯片的种种优势被不断放大,不仅有助于打造稳定、响应快、能快速扩展的计算基础设施,更便于云厂商在每个业务流程中做到效率与成本的最优化,同时,还可以做到硬件和软件并行开发,这意味着能够跨越传统设计界限、创新速度更快。
“我们发现一些客户对倚天芯片的拥抱程度其实是比较高的,尤其是互联网客户,因为不需要他们进行太多的业务架构或代码层面的改动,就能获得更强的性能优势。此外,阿里云倚天实例在视频编解码业务场景中,性价比提升超过80%,在密集型计算业务场景中,性价比提升50%以上。”张献涛表示,“这样的客户越来越多,也更加坚定了我们与平头哥半导体一起在自研芯片这条路上继续往前走的决心。”
阿里云倚天ECS的用户中,北京科学智能研究院在使用密度泛函数理论软件时,性价比提升70%;汇量科技广告推理业务使用倚天710云实例,性能和网络带宽双双提升,性价比提升40% 以上。
谈及对云原生系统中未来芯片的构想,张献涛表示,“我们还是希望能够加入更多的云原生元素,与平头哥半导体继续紧密合作。此外,还有对新的总线比如UCIe、CXL的支持,从而能够和CPU的计算架构进行更为深度的融合,更好地发挥软件的协同效应。”
AI时代,软硬件融合是更优算力的归途
在生成式AI掀起的巨大声浪中,大模型对计算能力提出更高要求的同时,也给云计算带来了新的应用场景。随着大模型应用逐渐深入到千行百业,未来,每家企业都可以是“AI大模型企业”。大模型时代需要什么样的云服务?如何进一步降低用户上云门槛?
显然,成本首先是一笔要算的账,现阶段大模型的算力成本非常高昂。对此,张献涛表示,还是需要提升算力效率,通过软硬件的充分融合,通过自定义的芯片去加速算力提升,比如和平头哥进行更加深度的合作,能够让这个领域所需要的强大AI算力,通过软硬件的深度协同变得更高效、成本更低。
“无论是在初代智能时代,还是这些年AI的发展,其实都需要深度的软硬件融合技术带来提升。而软硬件融合的本质更多还是软件定义硬件的一种新型模式,通过这种模式,软件和硬件之间的协同程度更高了,能够让软件的效率充分发挥出来,最终可以把整体计算效率提升起来”,张献涛谈到。
面临AI浪潮的来袭,云计算不仅需要通过算力普惠推动企业的数字化转型,同时,也肩负着助力AI更普及、为千行百业智能化升级提供核心动力的重任。在云计算和AI深度融合驱动的新一轮变革中,云计算和AI大模型将共同成为新时代的基础设施,而芯片将提供必不可少的底层支撑,让算力更普惠、让 AI 更普及。一个由算力撬动的智能时代---大幕已经拉开。