日前,2023人工智能计算大会(AICC)在北京召开。大会以“智算力就是创新力”为主题,现场发布了《2023-2024年中国人工智能计算力发展评估报告》(简称报告)、《北京市人工智能行业大模型创新应用白皮书(2023年)》(简称白皮书),并举行了北京人工智能公共算力平台点亮仪式,同时发布首批104GB中文互联网语料库。
2023年,中国智能算力规模同比增长59.3%
国际数据公司(IDC)与浪潮信息联合发布《2023-2024年中国人工智能计算力发展评估报告》。报告显示,人工智能正在加速从感知智能到生成式智能迈进,中国人工智能算力市场规模快速成长扩大。2023年,中国人工智能服务器市场规模将达91亿美元,同比增长82.5%;智能算力规模预计达到414.1EFLOPS(每秒百亿亿次浮点运算),同比增长59.3%;2022-2027年期间,年复合增长率预计达33.9%。
中国智能算力规模及预测,2020-2027
该报告指出,当前在AIGC的带动下,人工智能计算力技术及应用趋势发生了较大的变化,体现为“三变:
一是计算范式之变。大模型和AIGC的发展加速了更高计算性能、更快互联性能的算力基础设施建设,推进人工智能在云-边-端的覆盖。此外,伴随应用场景多样性,底层基础设施呈现多元化发展。
二是产业动量之变。AIGC可重构现有的工作方式,在内容创作、自动驾驶、零售、医疗等诸多领域改变着人们的生活和生产方式,同时也带来更大的市场机会。算力、算法、应用、服务等诸多产业变量将成为创新的加速器,在算力生态链上的各个环节催生出新的玩家。
三是算力服务格局之变。由于基础大模型的本地训练成本不菲,企业将更多地使用已有的人工智能数据中心设施和生成式AI服务器集群,这将为算力服务市场带来新机会。算力服务供应商要能够提供定制化的基础设施服务能力,满足单个用户对训练和推理资源的独占式、大规模、长时间使用的诉求,同时帮助用户实现成本控制。
生成式AI时代,智算力系统面临三重挑战
浪潮信息高级副总裁刘军进行了《智算力系统创新,加速生成式AI的产业发展》的主题演讲。他认为,生成式AI给算力系统带来的挑战主要有三方面:计算、数据和互联。
首先在计算层面,全球高端的AI训练芯片百花齐放,当前已经有40余种。由于不同芯片厂商采用的技术路线不同,在接口互联协议方面存在较多不兼容的情况,从而给AI算力系统带来开发适配周期长、定制开发投入大、业务迁移时间久等问题。
由于大模型训练对算力规模要求高,那么在单芯片算力有限的情况下,为了获得更高的训练性能,必须通过扩展集群规模来获得性能的扩展。
第二,数据存储方面,由于大模型正在从单模态向多模态、跨模态演进,这其中涉及文本、图像、音频、视频等多态数据,训练数据集通常会达到TB级甚至PB级。同时,大模型在训练和推理的不同阶段中对数据存储的要求也不同。
第三,互联方面,传统RoCE网络因ECMP哈希不均导致40%以上的网络带宽被浪费,且尾时延高导致网络通信时间占比训练时间高达40%,极大降低了计算效率。此外,网络作为集群的共享资源,网络故障以及性能波动,会影响到所有计算资源的利用率。
面对三重挑战,浪潮信息总结了多年产品研发和用户服务经验,提出三部分解决之道。
在计算方面,首先要解决多元算力的问题。可以预见,未来在相当长时间内,一定是多元算力芯片共存的局面。浪潮信息希望通过统一的系统架构和接口规范兼容各类多元的AI芯片,从而能够保障芯片算力的高效释放。据介绍,浪潮信息从2018年就开始打造开放多元的AI算力平台,最新发布的新一代G7多元算力平台,是业界目前唯一可以同时兼容SXM、OAI加速卡并实现8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台。通过多元算力平台的构建,浪潮信息显著降低了新型AI加速卡的上市时间,降低了整体开发的成本,也保证了搭配不同AI芯片的系统,具备良好的一致性品质。
为了保障更大规模的集群扩展性能,浪潮信息研发了开放加速的计算架构,在节点内和跨节点的互联可以做到896GB/s的互联带宽,支持PCIe、RoCE多协议扩展,使得整个集群性能加速比超过90%以上。
在数据存储方面,浪潮信息在业界率先实现了一套集群系统同时支持文件、对象、大数据等多种非结构化协议的无损互访,同时支持闪存、磁盘、磁带、光盘四类存储介质,并支持数据全生命周期热、温、冷、冰四级存储管理,以一套存储架构支持一个数据中心,真正实现了数据融合、管理融合。
在互联创新方面,浪潮信息专为生成式AI计算场景发布旗舰51.2T高性能交换机,为企业级智算网络提供高吞吐、高可扩展、高可靠的智算网络产品及方案,解决了传统RoCE方案普遍存在的有效带宽低、尾时延高、故障收敛慢等问题,将大模型训练性能提升38%以上,性能接近InfiniBand,助力AI用户高效释放大模型生产力。
“以应用为导向、系统为核心”是算力升级新路径
大模型和AIGC的发展提升了智能算力需求,给计算市场带来了发展机遇,同时也带来了算力紧缺等挑战。对此,《2023-2024年中国人工智能计算力发展评估报告》指出:面对单芯片算力瓶颈、算力紧缺等问题,中国市场对于智能算力供给能力的衡量标准将发生变化——评估指标将从硬件性能向应用效果转变,用户在获得算力服务的过程中,会更加以应用为导向进行综合考量,增加对于诸如单位时间可处理Token数量、可靠性、时延、训练时间和资金成本、数据集质量等指标的关注。
针对这一转变,算力供应商需要“以应用为导向、系统为核心”,构建算力基础设施平台,提高算力利用率,提升诸如卡间互联、多节点间互联等水平,支持灵活稳定扩展和弹性容错,打造通用的人工智能软件和硬件平台,以先进的系统性能力满足市场的应用需求。根据报告建议,与其过分关注单一芯片的性能强弱,不如根据AI业务场景需求,设计更具针对性的算力系统,实现整体性能最优。