2023年即将落下帷幕,回眸2023年,ICT产业稳步发展,运营商与产业链上下游企业携手并进,5G行业应用遍地开花、算力网络走向纵深、大模型百花齐放、技术创新加速ICT发展、创新企业引领产业未来。
自12月4日起,通信世界全媒体将以“蝶变·日新”为主题,全面推出2023年度盘点系列报道,从“大咖请回答”“年终产业回眸”“跨越2023”三大板块梳理2023年产业发展脉络,盘点产业发展最新成果,以专业行业媒体视角带领大家回顾ICT产业的2023。今日的“大咖请回答”板块,我们特邀中国电信股份有限公司研究院副院长陈运清畅谈2023年算力行业发展。
陈运清:中国电信股份有限公司 研究院副院长
毋庸置疑,2023是算力发展全面发力的一年。当前,算力已经成为推动数字经济发展的重要力量,成为战略发展支柱产业之一。同时,随着人工智能、大模型等新兴产业的全面爆发,对于算力的需求也在倍数增加,算力领域也随之衍生出更多发展方向,产业进一步走深向实。
回顾2023年,算力网络产业发生了哪些重要事件?对行业发展有何影响?在大模型全面爆发的元年,算力网络又面临了哪些挑战?对此,通信世界全媒体记者采访了中国电信股份有限公司研究院副院长陈运清,聆听他对2023年算力行业应用发展的真知灼见。
澎湃的2023:算力发展迎来两大重要趋势
今年6月,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年,我国算力规模超过300EFLOPS,智能算力占比达到35%;存储总量超过1800EB,先进存储容量占比达到30%以上;围绕工业、金融、医疗、交通、能源、教育等重点领域,各打造30个以上应用标杆。《行动计划》的发布为我国近几年的算力发展指明了前进的道路,稳定了发展的“军心”。
在陈运清看来,2023年的算力发展共有两大重要趋势:一是全球算力规模的进一步高速增长,算力作为数字信息基础设施核心资源的作用日益凸显;二是AI大模型的出现和不断发展,促使智算需求持续提升。
截至2023年8月,我国算力总规模达到197EFLOPS,位居全球第二;其中智能算力规模同比增长45%,占整体算力规模比例提高至25.4%。“这些数字代表的趋势表明,智能算力正成为支撑数字经济发展的新引擎。”陈运清告诉记者。
2023年,随着ChatGPT的大火,大模型席卷了整个ICT产业,我国也呈现出“百模大战”的产业趋势。值得注意的是,随着大模型极速发展,同时也引爆算力缺口,使得智算规模高速增长。2023年,我国新增算力基础设施中智能算力占比过半,智算中心正在支撑人工智能产业的快速发展,成为人工智能产业及经济增长“新动能”。预计到2025年,智算中心将支撑人工智能产业规模发展达到4000亿,带动5万亿产业目标;预计到2030 年达到1万亿,带动10万亿元产业目标。此外,全球AI增速远超数字化转型及GDP,其中中国的智能算力CAGR就达到52.3%,预计2026年将达到1271.4EFlops。
把握机遇的当下:算网一体将成为最终融合形态
尽管当下,ICT产业正是稳步发展,运营商与产业链上下游企业携手并进,技术创新加速ICT发展。但不得不忽视的是,算力、大模型全面爆发,大模型技术更新迭代加速,产业需求爆发等多方面挑战。陈运清指出,在当前的趋势下,算力网络的长期演进需要面对四大方面的需求:
一是要满足泛在普惠的业务需求,即要面对千万级的2C2B2H用户及百万级的训推数据流并发;二是要能使算力网络提供应用级的保障。需要算力网络具备算力需求和网络能力实时感知的能力并能够在数据流抵达算力节点过程中持续保障差异化和高吞吐能力;三是要求算力网络能够提供租户级的网络资源弹性供给能力和大规模定制化灵活调整的能力;四是要求算力网络具备网络数据和网络能力的开放接口的灵活调用能力。“对电信运营商而言,这四方面的需求需要依据现有网络和云网运营系统的叠加补充后不断优化、完善后才能逐步加以构建,是一个复杂的需要分阶段实施的系统工程。”陈运清补充道。
面向未来,数字信息基础设施中的AI智算和网络两大核心要素,势必需要相互促进,才能得以整体均衡发展。在谈及未来数十年的产业发展趋势,陈运清着重提到了两方面。首先,随着AI算力得以大幅度的提升,支持算力架构从CPU演进为CPU+GPU+NPU/DPU的融合异构算力架构,云边端的算力协同则变为了刚需。可以预见,今后会有70%的数据会在边缘产生和处理,而且随着各类终端的算力处理能力的加强,端侧算力会上移,云则会向分布式算力布局的方向发展,即云侧算力下沉,为此越来越需要云边端算力的三体协同。
其次,业务形态变化会推动作为数字信息基础设施主体的网络部分的持续演进,即逐步将网络与海量的数据相结合,并由此向意图驱动的智能服务网络演进。所以,未来网络的目标是成为具备确定性体验和通信感知融合能力的立体超宽的智能化网络,从而使得网络成为新型数字信息基础设施的基础底座。综上两个行业发展趋势而言,AI智算和智能化网络逐步实现深度融合,最终走向算网一体。
全面迸发的未来:智算或将站上算力发展“主舞台”
AI大模型不断发展,使得智算需求持续攀升。据悉,GPT-3的token数为3000亿,参数规模为1750亿;折合算力当量3646Pflops-days,需上万张英伟达A100卡(单节点1000P智算中心训练约3.6天)。而GPT4的token数为13万亿,参数规模1.8万亿折合算力当量249Eflops-days,约2.5万张英伟达A100卡(单节点1000P智算中心训练约249天)。可以看到,从GPT-3到GPT-4,token数增长约43倍,参数规模增长约10倍,算力需求增长则为约70倍。这意味着为满足大模型带来的智算需求的快速增长,新型智算中心至少需要万卡GPU的以上的水平。在陈运清看来,数据中心内如何高效率的把这些万卡级GPU有效互联,构建无损的数据中心内组网(DCN)就成为一个首先要攻克的方向或领域。同时,算力网络还需要把计算任务有效送达到相应的算力节点,这期间包含了算网调度、算力感知、存算一体、算力路由和算力切片等细分技术方向。“算力网络并非一夜之间凭空产生的。算力网络的构建需要充分借鉴已有云计算的发展路径和已有基础承载网络的发展。算力路由系统也需要与已有的一体化云网运营系统和SRv6路由承载协议充分结合。从两个大的融合维度上看,算力网络包含了以网强算和以网促算两个维度。以网强算的抓手是构建AI智能数据中心网络。”陈运清解释道。借助于此,实现AI智算中心内异构算力的统一承载,同时做到网络与计算间的解耦,从而使能AI智算网络开放架构。“以网促算的目标是打造超宽、高弹性、高吞吐的智算广域网络,通过匹配400GE低时延智算IP网络,实现多云、多算力的灵活连接和并完成算力调度的任务。对应的IP承载网能够提供租户级按需弹性服务,使得性价比优于数据快递,伴随着网络吞吐量倍增带来的数据传输效率的大幅度提升,以达到或接近于广域无损的数据传输效果。”陈运清最后说道。
作者:王禹蓉
责编/版式:盖贝贝
审核:舒文琼
监制:刘启诚