自2022年11月ChatGPT发布以来,AIGC(生成式人工智能)成为各行各业密切关注的热点,医疗、金融、交通、通信等领域的AI(人工智能)大模型层出不穷,舆论称之为“千模大战”,更有观点认为“万模大战”将是AI产业化的必然趋势。
新业务的算力之困
与传统AI侧重图像分类、语言识别、故障诊断等分类预测型任务不同,AIGC更关注如何利用深度神经网络自动生成新的创作内容,例如创作文章、图像、音乐等。前者往往在小数据集下也能得到较高准确率的输出,而后者则需要依赖大规模高质量的训练数据,海量数据的背后,是算力需求的爆发式增长。以目前业界分析较多的通用语言模型GPT-3为例,它拥有1750亿个参数,仅训练阶段就需要10000张V100GPU持续运行约14.8天,整体算力消耗为625PFlops。而于今年3月发布的GPT-4不仅参数量增加了10余倍,其对应的算力需求也大幅增加。尽管现阶段仍有专家对ChatGPT类语言大模型的可用性提出质疑,但要提升AIGC的性能,最直接且最可行的方案就是增加训练参数的数量,并投入更多的训练数据和算力资源,以期待“从量变到质变”的转变,进而满足千行百业的需求。过去,规模效应支撑算力水平持续提升,而伴随大模型参数量越来越大,智能化程度越来越高,行业对存储、网络、计算等底层基础硬件能力,以及扩展性、灵活性的要求也越来越高。算力建设不能局限于CPU、GPU、NPU等计算芯片的简单堆叠,如何勘破计算芯片协同的难点与要点,运用多种技术构建资源整合型的超级计算机以提升算力服务水平,是当前产业重要的研究方向。
算力供给模式创新是破局关键
在新形势下,依赖单体算力的传统供给模式显然已经难以为继,以AIGC为代表的新型业务在算力需求和算力应用两个维度存在明显差异,这些差异点正是破解大模型时代算力困局的关键。首先,用户量、访问速度、训练模式等成为算力需求的影响因素,因此,在新业务执行的不同阶段,对算力的需求各有不同。以ChatGPT为例,其全生命周期包括数据获取、模型训练、模型推理和迭代微调四个阶段,对算力的消耗主要集中在模型的训练和推理两个阶段。在模型训练阶段,大算力用于支持训练数据处理和海量参数优化等数据密集型操作,对算力基础设施的运行效率、性能稳定性和弹性扩缩容能力有较高要求;在模型推理阶段,大算力主要用于执行前向传播计算,对算力位置、交互实时性和准确性有较高要求。根据测算,模型训练所需的算力规模是模型推理的10倍左右,且其对资源的占用周期也远超后者。其次,从业务运行周期看,传统基于CPU的通用计算任务往往对应着相对平滑的负载曲线,且对算力的需求在时间上呈现连续波动的趋势;而新兴业务的算力使用可能出现“短时高量”的特点,这意味着在特定时段,新兴业务的算力需求会突然增加到高位水平,后续又会快速收敛到低值。针对算力需求的脉冲效应,“分时复用”是一种行之有效的资源配置策略。
具体而言,借助需求预测和任务调度的方法,在高峰期给新兴业务分配更多算力资源,以满足其高算力需求;而在低峰期则将多余的算力资源重新分配给其他业务或用户,以提高整体的算力使用效率。从上述分析可知,为适配新业务的发展节奏,算力资源供给模式亟需从以前的刚性化、“孤岛”式、资源式,向弹性化、网络化和任务式演进。弹性化是资源提供方根据工作负荷进行算力扩展和收缩,当需求增加时,动态增加算力资源以满足更高的计算要求;当需求减少时,适时释放空闲算力资源以消纳更多用户。网络化是采用网络手段组织和管理算力资源,将分散在不同地理位置和组织机构间的计算、存储资源进行有效调配,形成泛在融合的算力供给网络。任务式是新型算力供给体系的重要特征,算力提供方将自有算力资源以任务的形式发布到算力交易中心,供需双方可根据业务特点进行匹配和一键订购。同为社会高质量发展的重要驱动力,算力和电力有诸多相似之处,例如电力的调度需要电网作支撑,而算力的调度同样需要将分布式的算力中心汇聚成“一张网”,因此业内可以借鉴电力行业的发展经验来构建新型算力供给体系。基于多级、多方、多样的算力资源新型供给体系如图1所示。
图1 基于多级、多方、多样的算力资源新型供给体系
构建算力供给体系的关键技术
在现有多级、多方、多样算力并存的情况下,将算力供应与算力调配充分解耦,是推动算力资源从高门槛应用到融入千行百业、进入普惠共享新阶段的必经之路,也是构建创新型算力供给体系的重要措施。在推进算力提供方、运营方、使用方等供需各环节解耦的过程中,算力度量、算力路由感知、算网编排、算力交易、确定性网络等技术得到广泛关注。
算力度量技术
旨在量化评估异构算力资源以及多样化业务需求,通过建立一致的描述语言,在赋能算力流通属性的同时,为算力的感知、管控、服务提供基础和标准。将不同芯片提供的算力通过度量函数映射到统一量纲,用户多样化的需求映射为实际所需的算网资源,从而实现按需服务,对不同算法的算力需求进行度量,有效调用算法所需的算力。当前业界衡量算力大小通常采用的单位是Flops,即每秒浮点运算的次数,而在现有云计算方案中,则以虚机、容器等粗粒度的衡量单位为主。
算力路由感知技术
是实现算力网络化的核心功能,能够支持对网络、计算、存储等多维度资源、服务的感知与通告,从而实现网络和算力资源的调度优化。目前的主流方案是将云计算领域的算力因子等概念引入网络领域,提出综合算力因子和网络因子的多重考量方案,再基于BGP、IGP等路由协议报文进行扩展,通过新增路径属性来承载算力信息和网络信息。
算网编排技术
是根据网络感知动态数据,实现算力解构调度、网络智能选路、资源自动调度开通以及实时端到端透明可视。算网编排将网络、算力、数据、服务、应用、安全等多要素融合,实现从需求、流程、产品到运维、监控、自服务等多场景的跨云、跨网、跨域、跨用户编排。
算力交易技术
是指将算力提供方的各类算力资源,按需提供给算力消费方,包括对算力消费方的资源需求解析,提供可视化交易视图、订单管理等功能。确定性网络技术不同于传统IP网络“尽力而为”的转发方式,可为网络提供“准时、准确”的可靠性数据传输服务,是构建下一代网络基础设施体系、提升数据传输服务质量的关键技术之一。
结语
未来,随着算力需求的逐步增长和计算机硬件的不断发展,大模型的规模和性能将持续提升。高性能的计算环境为大模型的训练和应用带来诸多优势,再配以弹性化、网络化、任务式的算力供给体系,可以充分盘活算力资源的每一个浮点能力,加速新业务开拓数字经济新“蓝海”。