“东数西算”无疑是2022年一大热词,产业界和学术界就该话题进行了深入的研究探讨。
整体上来看,“东数西算”的实施,一方面是为了更好地利用西部相对优惠的电力资源和优异的气候条件,推动数据中心的优化布局和产业整体的绿色低碳发展;另一方面希望借此带动西部的算力基础设施建设,促进当地信息化水平的提高和数字经济的发展。
算力和数据是数字经济的核心驱动力
在数字经济时代,数据以几何级数增长,随之而来的是对强大算力的需求。“东数西算”从字面上看,是将东部的数据拿到西部计算。
数据来源于各种应用,当数据积累到一定的程度,且具有快速流转、多样类型和价值密度低等特征后,便成了大数据。从内容格式来看,大数据分成结构化数据、非结构化数据和半结构化数据,其中结构化数据主要是指关系型数据,非结构化数据主要是音视频文件等数据。从数据的使用频率来看,大数据主要分为热数据、温数据和冷数据。从存储角度来看,数据可采用文件存储、块存储和对象存储等方式。从数字世界的角度来看,以上所有的数据最终都会转变成0和1的二进制数字,在网络上传输并在芯片上计算、存储。
《中国算力白皮书(2022年)》显示,算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力,最常用的计量单位是每秒执行的浮点运算次数(FLOPS)。算力由计算、存储和网络共同支撑实现,缺一不可。
从类型上分,算力主要包括通用算力、智能算力、超算算力。其中为人们所熟知的是CPU所提供的算力,例如网页浏览;普通人接触不多但是能享受到其服务结果的是GPU算力,例如电影渲染;更尖端的则是主要用于科研创新的超算算力,例如天气预报。日渐兴起的边缘算力是对基于计算所在位置维度的特定算力的统称,它可能包括通用算力和智能算力。由于应用和规模的关系,边缘超算算力存在的可能性几乎为零。
由于具有不可移动性,各类数据中心就是数据计算和存储的中心,存进去的是数据,传出来的还是各类数据。业界对是否所有大数据都适合拿到西部去计算的讨论也颇为热烈。总的原则是要根据大数据处理对时延的要求进行分类判断,对处理时延要求极高的大数据(例如金融交易、游戏等),应该就近进行计算,这也是“北上广”等地区数据中心供不应求的重要原因;对处理时延要求不高的大数据(如渲染、训练等),则可以拿到西部进行计算和存储。通过“东数西训”“东数西存”等方式,实现数据的差异化处理。
算力网络赋能“东数西算”
“东数西算”工程启动后,算力和网络这两个原本独立的词组成了“算力网络”这一新词,成为业界特别是电信运营商重点关注和研究的方向。
随着宽带通信和移动通信的发展,我国数据流量日益增长。据工信部统计,2015年,DOU(Dataflow of usage,每户每月上网流量)为200M左右;2021年DOU达13.36GB,暴涨60多倍。数据的大幅增长带动了对数据中心的庞大需求。据中国信息通信研究院统计,我国数据中心的在用机架数量从2011年的不到30万架,增长到2021年的520万架,10年期间增长近20倍。
数量如此之大的数据中心,使得原本主要为通信服务的网络,需要承担数据中心间的流量传输,于是数网协同被提上了议事日程。在此过程中,电信运营商通过第二平面的建设,重点保障高QoS的业务,满足了部分需求。例如中国电信的CN2,支持数据、语音、视频等多种业务融合的应用。
同一服务商的不同数据中心之间可以通过租用裸纤的方式建立DCI通道,但是随着数据流量的增大以及各类应用的发展,跨区域、跨服务商的数据中心网络互联需求日益强烈,算网协同就此进入专家的研究视野。通过网络的支撑,高效地调度不同服务商间的算力,形成算网协同的解决方案,是目前阶段业界努力的方向。算力和网络的协同程度如图1所示。
图1 算力和网络的协同程度
集群间的网络联接主要是通过骨干网,其建设运营相对简单。我国的5G网络覆盖和千兆光网接入的能力已经进入全球前列,网络基础设施较为完善。“东数西算”工程的实施,将为算网一体的服务提供更多的应用场景,促进算力和网络的一体化发展。
算力资源不同于水电资源,传输的是数据
有人说“算力随处可取,像自来水一样拧开龙头就可以得到”,这个比喻很形象但不严谨。
水、电、气,其属性各不相同。水是物理存在的自然资源,通过管道运输,可以利用某些器皿进行储存;气也是物理存在的自然资源,通过管道运输,但是看不见摸不着,可以通过器具储存;电属于二次产品,需要风、光、水、煤等自然资源经过转换才能得到,通过电线传输。虽然近年来储能技术发展迅速,但总体看储存难度较大,性价比不高。
算力与水、电、气的特征比较如表1所示,通过对比不难发现,算力与水电、气、均不相同。算力是由数据中心产生,服务器在哪里,算力就在哪里。在服务器不换位置的情况下,它不可能移动也不能被传输。而且算力无法储存,如果某段时间内服务器没有使用,那么这段时间的算力也不可能存储起来供以后使用。
表1 算力与水、电、气的特征比较
因此,拧开龙头算力并不会流出来,流动的只能是数据,而算力更像是一个水池。数据源源不断地流进水池,一些数据留下了,另一些数据被处理后流出去,边缘数据中心的作用也是如此。由此可见网络在算力时代的重要性,没有网络,数据就无法流动,数据中心也就发挥不了作用,成为“没有生机的沙漠”。
算力调度是高效利用算力资源的关键
众所周知,电网是可以调度的,“拉闸限电”是一种最直接的调度方式。这是由于电网发电机不能满足用电负荷需求,或输变电设备已无法承载更多的负荷,为保证电网或输变电设备安全,人为采取了去除负荷措施。与电力不同,算力无法移动、传输和存储,那么算力如何调度?
算力调度更多是指调用合理的算力去处理相应的数据,数据中心拥有多种算力,每种算力针对不同类型的数据。从计算类型来看,算力主要分为整型和浮点计算。整型计算适用于深度学习模型的推理运算;半精度计算适用于深度学习模型的训练运算;单精度计算多用于图形应用程序、图像处理和机器学习等;双精度浮点运算主要用于超算领域。这里的分类维度和通用算力、智能算力、超算算力不是一一对应的关系。一般来说,通用算力主要用来处理整型和半精度计算;智算算力更合适进行单精度计算;超算算力特别擅长双精度计算。各类算力中心重点处理的数据类型如表2所示。
表2 各类算力中心重点处理的数据类型
基于智算算力的数据中心即为智算中心。现在业界对智算中心算力的宣传多集中于多少FLOPS或者OPS等。需要注意的是,在单位不统一、精度不统一的情况下,不同智算中心的性能指标是没有可比性的。
算力无法储存和传输,如果此时此刻的算力不能被利用,那么也就过期作废了。因此,如果要高效全面地利用好所有的算力资源(包括不同类型的算力、不同数据中心的算力、不同集群的算力),就需要通过统一的调度平台来实现统一的算力编排,并能在具有一定预期性的前提下,基于统一的算力定价机制完成算力的供给和使用,使得所有类型的算力都能“算”尽其用,所有的算力需求都能得到满足,使“数据”和“算力”达到一种理想的平衡状态。
算力和能效
一直以来,大家只要聊起数据中心,必然会与高能耗结合起来看。从技术的角度看,数据中心的高能耗是由芯片带来的,因此除非芯片制程(如5nm)或者计算物质(如量子)有根本性变化,否则高算力对应高能耗是一个无法避免的事实。但是相比高能耗,大家更应该看到的是,基于数据中心的各种数字化应用给我们的工作和生活带来的便利,为企业数字化转型和国家数字经济发展贡献的发动机作用。
我国数据中心10年间增长近20倍,数据中心所消耗的能源绝对值一定是相应增长的,但是经研究,单位算力的能耗却是一直在下降的。2020年初《Science》刊登的《重新校准全球数据中心能耗估算》一文披露,从单计算实例来看,全球数据中心能耗强度自2010年以来每年下降20%。
PUE(电能利用效率)是业界公认的评判数据中心能效高低的指标。2022年11月,国家强制标准GB40879—2021《数据中心能效限定值及能效等级》正式实施,其中很重要的一条就是对PUE的要求。绿色低碳的深入发展,使得CUE(碳利用效率)也逐渐成为大家关注的焦点。
从数据中心整体的碳排放深入到IT设备的碳效指标,近期开放数据中心委员会(ODCC)发布的ODCC-2022-0500A《数据中心算力碳效白皮书》提出了一种服务器的算力碳效模型,定义如下:CEPS=C/S,其中C是碳排放量;S是服务器算力性能。通过测试和研究发现,随着算力的提升,不同芯片的碳排放增长曲线各不相同。
图2 服务器使用阶段内算力碳效实测值
服务器使用阶段内算力碳效实测值如图2所示,测试结果显示,在服务器使用周期为5年的情况下,单位算力性能的碳排放量在20kg~60kg之间。由于IT设备特别是服务器在数据中心能耗中占比极大,数据中心的碳排放将在很大程度上取决于服务器和芯片,这逐渐成为数据中心绿色低碳发展的关键。
算力日渐成为新时代的新型生产力,成为数字经济发展的引擎。在算力的发展过程,可能会遇到各种各样的问题。通过对这些问题的分析和研究,能让我们对算力有更清晰的认识,也能更好地推进产业发展和“东数西算”落地。
*本文首发于《通信世界》2022年12月10日 第23期 总第909期
作者:中国信息通信研究院云计算与大数据研究所 郭亮
责编/版式:沈新竹
审核:申晴
监制:刘启诚