生成式AI趋势下，系统级算力升级是未来方向

日前，2023人工智能计算大会（AICC）在北京召开。大会以“智算力就是创新力”为主题，现场发布了《2023-2024年中国人工智能计算力发展评估报告》（简称报告）、《北京市人工智能行业大模型创新应用白皮书（2023年）》（简称白皮书），并举行了北京人工智能公共算力平台点亮仪式，同时发布首批104GB中文互联网语料库。

2023年，中国智能算力规模同比增长59.3%

国际数据公司（IDC）与浪潮信息联合发布《2023-2024年中国人工智能计算力发展评估报告》。报告显示，人工智能正在加速从感知智能到生成式智能迈进，中国人工智能算力市场规模快速成长扩大。2023年，中国人工智能服务器市场规模将达91亿美元，同比增长82.5%；智能算力规模预计达到414.1EFLOPS（每秒百亿亿次浮点运算），同比增长59.3%；2022-2027年期间，年复合增长率预计达33.9%。

中国智能算力规模及预测，2020-2027

该报告指出，当前在AIGC的带动下，人工智能计算力技术及应用趋势发生了较大的变化，体现为“三变：

一是计算范式之变。大模型和AIGC的发展加速了更高计算性能、更快互联性能的算力基础设施建设，推进人工智能在云-边-端的覆盖。此外，伴随应用场景多样性，底层基础设施呈现多元化发展。

二是产业动量之变。AIGC可重构现有的工作方式，在内容创作、自动驾驶、零售、医疗等诸多领域改变着人们的生活和生产方式，同时也带来更大的市场机会。算力、算法、应用、服务等诸多产业变量将成为创新的加速器，在算力生态链上的各个环节催生出新的玩家。

三是算力服务格局之变。由于基础大模型的本地训练成本不菲，企业将更多地使用已有的人工智能数据中心设施和生成式AI服务器集群，这将为算力服务市场带来新机会。算力服务供应商要能够提供定制化的基础设施服务能力，满足单个用户对训练和推理资源的独占式、大规模、长时间使用的诉求，同时帮助用户实现成本控制。

生成式AI时代，智算力系统面临三重挑战

浪潮信息高级副总裁刘军进行了《智算力系统创新，加速生成式AI的产业发展》的主题演讲。他认为，生成式AI给算力系统带来的挑战主要有三方面：计算、数据和互联。

首先在计算层面，全球高端的AI训练芯片百花齐放，当前已经有40余种。由于不同芯片厂商采用的技术路线不同，在接口互联协议方面存在较多不兼容的情况，从而给AI算力系统带来开发适配周期长、定制开发投入大、业务迁移时间久等问题。

由于大模型训练对算力规模要求高，那么在单芯片算力有限的情况下，为了获得更高的训练性能，必须通过扩展集群规模来获得性能的扩展。

第二，数据存储方面，由于大模型正在从单模态向多模态、跨模态演进，这其中涉及文本、图像、音频、视频等多态数据，训练数据集通常会达到TB级甚至PB级。同时，大模型在训练和推理的不同阶段中对数据存储的要求也不同。

第三，互联方面，传统RoCE网络因ECMP哈希不均导致40%以上的网络带宽被浪费，且尾时延高导致网络通信时间占比训练时间高达40%，极大降低了计算效率。此外，网络作为集群的共享资源，网络故障以及性能波动，会影响到所有计算资源的利用率。

面对三重挑战，浪潮信息总结了多年产品研发和用户服务经验，提出三部分解决之道。

在计算方面，首先要解决多元算力的问题。可以预见，未来在相当长时间内，一定是多元算力芯片共存的局面。浪潮信息希望通过统一的系统架构和接口规范兼容各类多元的AI芯片，从而能够保障芯片算力的高效释放。据介绍，浪潮信息从2018年就开始打造开放多元的AI算力平台，最新发布的新一代G7多元算力平台，是业界目前唯一可以同时兼容SXM、OAI加速卡并实现8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台。通过多元算力平台的构建，浪潮信息显著降低了新型AI加速卡的上市时间，降低了整体开发的成本，也保证了搭配不同AI芯片的系统，具备良好的一致性品质。

为了保障更大规模的集群扩展性能，浪潮信息研发了开放加速的计算架构，在节点内和跨节点的互联可以做到896GB/s的互联带宽，支持PCIe、RoCE多协议扩展，使得整个集群性能加速比超过90%以上。

在数据存储方面，浪潮信息在业界率先实现了一套集群系统同时支持文件、对象、大数据等多种非结构化协议的无损互访，同时支持闪存、磁盘、磁带、光盘四类存储介质，并支持数据全生命周期热、温、冷、冰四级存储管理，以一套存储架构支持一个数据中心，真正实现了数据融合、管理融合。

在互联创新方面，浪潮信息专为生成式AI计算场景发布旗舰51.2T高性能交换机，为企业级智算网络提供高吞吐、高可扩展、高可靠的智算网络产品及方案，解决了传统RoCE方案普遍存在的有效带宽低、尾时延高、故障收敛慢等问题，将大模型训练性能提升38%以上，性能接近InfiniBand，助力AI用户高效释放大模型生产力。

“以应用为导向、系统为核心”是算力升级新路径

大模型和AIGC的发展提升了智能算力需求，给计算市场带来了发展机遇，同时也带来了算力紧缺等挑战。对此，《2023-2024年中国人工智能计算力发展评估报告》指出：面对单芯片算力瓶颈、算力紧缺等问题，中国市场对于智能算力供给能力的衡量标准将发生变化——评估指标将从硬件性能向应用效果转变，用户在获得算力服务的过程中，会更加以应用为导向进行综合考量，增加对于诸如单位时间可处理Token数量、可靠性、时延、训练时间和资金成本、数据集质量等指标的关注。

针对这一转变，算力供应商需要“以应用为导向、系统为核心”，构建算力基础设施平台，提高算力利用率，提升诸如卡间互联、多节点间互联等水平，支持灵活稳定扩展和弹性容错，打造通用的人工智能软件和硬件平台，以先进的系统性能力满足市场的应用需求。根据报告建议，与其过分关注单一芯片的性能强弱，不如根据AI业务场景需求，设计更具针对性的算力系统，实现整体性能最优。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MC9S08PA16AVTJ	1	NXP Semiconductors	MICROCONTROLLER		$2.56	查看
STM32F427VIT6	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC	ECAD模型下载ECAD模型	$22.31	查看
USB2514B-AEZC-TR	1	Microchip Technology Inc	UNIVERSAL SERIAL BUS CONTROLLER	ECAD模型下载ECAD模型	$3.31	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MC9S08PA16AVTJ

NXP Semiconductors

MICROCONTROLLER

$2.56

查看

STM32F427VIT6

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator,FSMC