大模型时代下新型算力供给体系的几点思考

自2022年11月ChatGPT发布以来，AIGC（生成式人工智能）成为各行各业密切关注的热点，医疗、金融、交通、通信等领域的AI（人工智能）大模型层出不穷，舆论称之为“千模大战”，更有观点认为“万模大战”将是AI产业化的必然趋势。

新业务的算力之困

与传统AI侧重图像分类、语言识别、故障诊断等分类预测型任务不同，AIGC更关注如何利用深度神经网络自动生成新的创作内容，例如创作文章、图像、音乐等。前者往往在小数据集下也能得到较高准确率的输出，而后者则需要依赖大规模高质量的训练数据，海量数据的背后，是算力需求的爆发式增长。以目前业界分析较多的通用语言模型GPT-3为例，它拥有1750亿个参数，仅训练阶段就需要10000张V100GPU持续运行约14.8天，整体算力消耗为625PFlops。而于今年3月发布的GPT-4不仅参数量增加了10余倍，其对应的算力需求也大幅增加。尽管现阶段仍有专家对ChatGPT类语言大模型的可用性提出质疑，但要提升AIGC的性能，最直接且最可行的方案就是增加训练参数的数量，并投入更多的训练数据和算力资源，以期待“从量变到质变”的转变，进而满足千行百业的需求。过去，规模效应支撑算力水平持续提升，而伴随大模型参数量越来越大，智能化程度越来越高，行业对存储、网络、计算等底层基础硬件能力，以及扩展性、灵活性的要求也越来越高。算力建设不能局限于CPU、GPU、NPU等计算芯片的简单堆叠，如何勘破计算芯片协同的难点与要点，运用多种技术构建资源整合型的超级计算机以提升算力服务水平，是当前产业重要的研究方向。

算力供给模式创新是破局关键

在新形势下，依赖单体算力的传统供给模式显然已经难以为继，以AIGC为代表的新型业务在算力需求和算力应用两个维度存在明显差异，这些差异点正是破解大模型时代算力困局的关键。首先，用户量、访问速度、训练模式等成为算力需求的影响因素，因此，在新业务执行的不同阶段，对算力的需求各有不同。以ChatGPT为例，其全生命周期包括数据获取、模型训练、模型推理和迭代微调四个阶段，对算力的消耗主要集中在模型的训练和推理两个阶段。在模型训练阶段，大算力用于支持训练数据处理和海量参数优化等数据密集型操作，对算力基础设施的运行效率、性能稳定性和弹性扩缩容能力有较高要求；在模型推理阶段，大算力主要用于执行前向传播计算，对算力位置、交互实时性和准确性有较高要求。根据测算，模型训练所需的算力规模是模型推理的10倍左右，且其对资源的占用周期也远超后者。其次，从业务运行周期看，传统基于CPU的通用计算任务往往对应着相对平滑的负载曲线，且对算力的需求在时间上呈现连续波动的趋势；而新兴业务的算力使用可能出现“短时高量”的特点，这意味着在特定时段，新兴业务的算力需求会突然增加到高位水平，后续又会快速收敛到低值。针对算力需求的脉冲效应，“分时复用”是一种行之有效的资源配置策略。

具体而言，借助需求预测和任务调度的方法，在高峰期给新兴业务分配更多算力资源，以满足其高算力需求；而在低峰期则将多余的算力资源重新分配给其他业务或用户，以提高整体的算力使用效率。从上述分析可知，为适配新业务的发展节奏，算力资源供给模式亟需从以前的刚性化、“孤岛”式、资源式，向弹性化、网络化和任务式演进。弹性化是资源提供方根据工作负荷进行算力扩展和收缩，当需求增加时，动态增加算力资源以满足更高的计算要求；当需求减少时，适时释放空闲算力资源以消纳更多用户。网络化是采用网络手段组织和管理算力资源，将分散在不同地理位置和组织机构间的计算、存储资源进行有效调配，形成泛在融合的算力供给网络。任务式是新型算力供给体系的重要特征，算力提供方将自有算力资源以任务的形式发布到算力交易中心，供需双方可根据业务特点进行匹配和一键订购。同为社会高质量发展的重要驱动力，算力和电力有诸多相似之处，例如电力的调度需要电网作支撑，而算力的调度同样需要将分布式的算力中心汇聚成“一张网”，因此业内可以借鉴电力行业的发展经验来构建新型算力供给体系。基于多级、多方、多样的算力资源新型供给体系如图1所示。

图1 基于多级、多方、多样的算力资源新型供给体系

构建算力供给体系的关键技术

在现有多级、多方、多样算力并存的情况下，将算力供应与算力调配充分解耦，是推动算力资源从高门槛应用到融入千行百业、进入普惠共享新阶段的必经之路，也是构建创新型算力供给体系的重要措施。在推进算力提供方、运营方、使用方等供需各环节解耦的过程中，算力度量、算力路由感知、算网编排、算力交易、确定性网络等技术得到广泛关注。

算力度量技术

旨在量化评估异构算力资源以及多样化业务需求，通过建立一致的描述语言，在赋能算力流通属性的同时，为算力的感知、管控、服务提供基础和标准。将不同芯片提供的算力通过度量函数映射到统一量纲，用户多样化的需求映射为实际所需的算网资源，从而实现按需服务，对不同算法的算力需求进行度量，有效调用算法所需的算力。当前业界衡量算力大小通常采用的单位是Flops，即每秒浮点运算的次数，而在现有云计算方案中，则以虚机、容器等粗粒度的衡量单位为主。

算力路由感知技术

是实现算力网络化的核心功能，能够支持对网络、计算、存储等多维度资源、服务的感知与通告，从而实现网络和算力资源的调度优化。目前的主流方案是将云计算领域的算力因子等概念引入网络领域，提出综合算力因子和网络因子的多重考量方案，再基于BGP、IGP等路由协议报文进行扩展，通过新增路径属性来承载算力信息和网络信息。

算网编排技术

是根据网络感知动态数据，实现算力解构调度、网络智能选路、资源自动调度开通以及实时端到端透明可视。算网编排将网络、算力、数据、服务、应用、安全等多要素融合，实现从需求、流程、产品到运维、监控、自服务等多场景的跨云、跨网、跨域、跨用户编排。

算力交易技术

是指将算力提供方的各类算力资源，按需提供给算力消费方，包括对算力消费方的资源需求解析，提供可视化交易视图、订单管理等功能。确定性网络技术不同于传统IP网络“尽力而为”的转发方式，可为网络提供“准时、准确”的可靠性数据传输服务，是构建下一代网络基础设施体系、提升数据传输服务质量的关键技术之一。

结语

未来，随着算力需求的逐步增长和计算机硬件的不断发展，大模型的规模和性能将持续提升。高性能的计算环境为大模型的训练和应用带来诸多优势，再配以弹性化、网络化、任务式的算力供给体系，可以充分盘活算力资源的每一个浮点能力，加速新业务开拓数字经济新“蓝海”。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
KSZ8863MLLI-TR	1	Microchip Technology Inc	DATACOM, LAN SWITCHING CIRCUIT		$5.95	查看
KSZ8895MQXCA	1	Microchip Technology Inc	DATACOM, ETHERNET TRANSCEIVER, PQFP128	ECAD模型下载ECAD模型	$5.9	查看
KSZ8041FTLI-TR	1	Microchip Technology Inc	DATACOM, ETHERNET TRANSCEIVER, PQFP48	ECAD模型下载ECAD模型	$2.95	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

KSZ8863MLLI-TR

Microchip Technology Inc

DATACOM, LAN SWITCHING CIRCUIT