作者:单志广 涂菲菲
责编/版式:盖贝贝
审校:王 涛 梅雅鑫
监制:刘启诚
2024年《政府工作报告》提出,“开展‘人工智能+’行动,打造具有国际竞争力的数字产业集群。”这既顺应全球人工智能发展趋势,也反映了未来中国产业升级的现实需求,开启了人工智能技术在各行各业广泛应用的新篇章。人工智能技术和应用创新不断加速、模型复杂度和数据量急剧增加,对包括算力在内的新型基础设施建设提出了新需求。
从实践层面看,目前我国算力资源在规模和使用成本等方面仍然不能满足人工智能规模化应用和快速迭代创新的需要,因此建立适应人工智能时代的高质量算力服务体系迫在眉睫。公有云是破解我国人工智能时代算力“供不上、用不起”瓶颈问题的重要抓手。公有云具有大规模集群管理能力,能以资源利用效率最大化的方式,帮助提升我国算力供给能力,并通过规模经济效应推动算力“门槛”降低,让更多的用户享受普适普惠的算力服务。公有云和人工智能相结合还将推动“云计算”走向“云智算”,云计算不再局限于IT计算本身,而是提供算力、模型、数据、生态等与智能化发展相关的全方位创新服务,从而促进“人工智能+”切实落地,助推新质生产力不断发展。
01、公有云已成为人工智能时代,数智化发展的战略抉择
公有云已成为支撑国际领先大模型的云服务首选
自2022年底ChatGPT发布以来,全球大型科技企业掀起了“基础大模型之战”,不断升级大模型版本。尽管公有云和私有云都可用于基础大模型训练,但基础大模型在训练时一般需要调度万颗以上GPU,需要极强的专业技术能力,因此国际领先的基础大模型通常使用公有云训练。例如,OpenAI的ChatGPT部署在微软Azure云上,Anthropic的Claude和Meta的LLaMA部署在亚马逊AWS云上,Midjourney和Google的Gemini部署在谷歌云上。公有云巨头不仅在基础大模型训练中扮演了关键角色,而且在大模型应用服务中也发挥了重要作用。在公有云上部署大模型,不仅能让用户及时获取大模型的最新功能和应用,还可以通过其PaaS(PlatformasaService,平台即服务)层和SaaS(SoftwareasaService,软件即服务)层为用户提供丰富的工具、组件和应用,支撑千行百业智能化应用。截至2023年11月,已有超过18000家组织通过Azure接入OpenAI大模型服务。
公有云已成为破解全球算力瓶颈的核心手段
大模型发展带来了AI算力需求的快速上升,其所消耗的计算资源每3~4个月翻一倍,算力需求的增长速度已经远超芯片性能提升和产能扩张速度的上限。随着大模型用户规模的快速增长,推理算力需求也迅速上升,算力资源紧缺已成为制约大模型规模化应用的主要瓶颈。据估算,截至2023年8月,全球范围内英伟达GPU芯片H100的供给缺口超过43万颗。受限于封装技术及产能不足,H100订单交货周期长达36周到52周不等。我国由于高端芯片进口受限,算力紧缺问题愈加突出。而充分发挥公有云大规模机器调度、异构芯片兼容能力,不仅能将已有先进芯片集约化利用,还能充分利用已有的通用CPU资源,为大模型训练和推理应用提供必要的算力支持。随着公有云技术体系加速升级,AI训练、AI推理以及HPC超算等计算资源将并池管理,实现算力普惠和模型普及。
公有云已成为智能产业降本增效的必由之路
算力成本是限制大模型发展的关键因素之一,中小型人工智能企业往往难以通过自建算力设施满足训练和推理算力需求,因此算力租赁需求迫切。然而,由于高端芯片进口受限等外部因素,当前市场上算力租赁业务价格不菲。有观点认为,一旦算力成本降到目前的1%,大模型就能实现真正的普及。公有云以其网络效应和规模效应,具备降低成本的潜力。随着用户规模增加、技术优化和运营效率提升,公有云厂商持续降低云计算服务价格。例如,亚马逊AWS曾连续三年每年降价12次;过去十年阿里云将计算成本降低了80%,存储成本降低了近90%。此外,公有云平台通过“平台+低代码+生态”的方式,构建普惠化、个性化、低成本的技术架构和解决方案,帮助企业专注于业务创新,加速技术的迭代与升级。例如,Discord依托谷歌云平台,从一个聊天沟通平台变成AI创新应用的“首发”验证平台,支持了Midjourney和Pika的成长。
02、我国公有云发展态势和面临的挑战
市场增长乏力,需求引导不足无论是从理论上还是国际市场发展趋势来看,算力服务最经济的方式是将算力集中在云厂商手中,以公有云模式提供算力服务。近年来,国际公有云市场保持快速增长态势,而我国公有云市场却表现为增速放缓。如图1所示,2016—2022年,全球公有云服务市场实现了蓬勃发展,市场规模从2016年的8540亿元增长到2022年的38206亿元。其中,我国公有云服务规模从2016年的203亿元增长到2022年的2479.4亿元。在经历了快速增长期之后,近年来我国公有云市场增速逐步放缓,已低于全球平均增速。与全球趋势对比,我国公有云市场不仅份额小,发展动力也不足。
图1 2016—2022年全球公有云服务规模增长情况(根据IDC公开资料整理)
从需求端看,最积极使用公有云的互联网行业近几年发展持续低迷,占据IT支出大头的政企领域更加偏好私有云、混合云。据国际咨询机构Gartner数据显示,2021年中国混合云占比达到了42%,预计2024年中国混合云占比将达到70%,远高于全球平均水平(50%)。可见我国公有云市场增速在持续下滑,而混合云、私有云保持稳定增长。私有云过多将导致我国算力产业和软件服务业碎片化,对未来人工智能产业、数字经济核心产业以及新质生产力整体提升都将造成一定的阻碍。
“重硬轻软”导致失衡,服务效能不佳
云计算通常以IaaS(InfrastructureasaService,基础设施即服务)、PaaS、SaaS等方式向外提供服务。早期以IaaS服务为主,随着产业发展的深入,各行业领域对于上云用云服务的需求愈加多样化,因此应更加重视服务的创新和对应的生态支持。纵观全球云计算市场,SaaS服务的占比不断提升,而我国则呈现IaaS服务占比提升、SaaS发展迟缓的趋势,如图2所示。灵活便捷的软件应用支撑服务供应不足,使得用户用云服务成本较高,从长远来看难以形成可持续发展的优质云服务生态。
图2 2022年中国与全球公有云服务结构对比
从公有云服务结构来看,我国与全球发展状况存在差异。我国公有云服务形式以提供IaaS为主,PaaS、SaaS的市场占比较低,存在平台和软件方面的服务短板。Gartner数据显示,2022年我国公有云IaaS、PaaS、SaaS市场规模占比分别为58.24%、16.12%、25.64%,以IaaS为主;同年,全球公有云市场IaaS、PaaS、SaaS市场规模占比分别为31.50%、28.84%、39.67%,SaaS是主体。此外,IDC数据显示,2023年我国IaaS市场占比进一步提升,SaaS市场占比持续降低,与全球公有云服务结构差异愈加凸显。
算力资源分散,利用效率不高
近年来,我国算力总规模高速增长,但算力资源未能实现充分利用。2018—2022年,我国在用数据中心机架总规模年均增速超过30%,但2022年上架率仅为58%,低于全球平均水平(60%)和欧美发达国家平均水平(65%)。其中一个重要原因是,私有建设比例高,开放不充分的算力服务市场导致大量算力供给浪费。近年来我国云市场出现了明显的分野,腾讯云、阿里云等更聚焦发展公有云,而大量云厂商更多在混合云、私有云上发力,导致算力建设日趋分散。从使用效率看,公有云资源使用效率一般可达30%~40%,如亚马逊AWS、谷歌、阿里云等云厂商;而私有云资源使用效率一般约为5%~10%,如国内大量企业自建的数据中心。2022年,我国以公有云形式提供服务的算力占比仅为28%,大部分服务器以私有化部署的形式存在,部分城市通过自建数据中心来承载政务信息系统,金融机构和大型央国企出于数据安全和资产保值的目的大多也自建数据中心。由此可见,我国的算力资源分散,小规模、分散运营的传统机房普遍存在,难以形成统一的公有云服务市场,缺乏可持续发展的竞争力。
03、人工智能时代我国公有云长效发展路径
以需求为导向,完善产业生态、优化服务供给
为有效扩大公有云使用需求,应从完善产业发展生态和优化服务供给两端发力。一方面,充分发挥政府在优化营商环境中的主导作用,营造更加公平的市场竞争环境,助力公有云产业生态培育和健康发展。一是在算力基础设施建设中给予网络直连、能耗、土地、税收等方面政策倾斜。二是鼓励财政资金购买公有云服务,将企业购买云服务纳入研发费用加计扣除税收优惠。三是将基于云计算构建的数字产品与服务纳入资产入表范围。另一方面,面向用户多元化、个性化的用云需求,提升多元算力的融合供给能力。一是支持对异构芯片进行统一纳管、池化、调度以及对异构算力集群的统一管理,形成对多源异构算力资源的统一调度能力,提供可靠、稳定的技术服务,以及更细粒度、更具弹性、更加灵活的算力资源供给。二是推广跨平台技术应用,允许用户将业务迁移至公有云,协助用户使用公有云承载的系统和数据,并保证迁移前后的功能一致与服务持续,提升云服务可迁移性,推动公有云更加开放。
以应用为牵引,强化开放协同、提升服务效能
面向多元化的场景应用需求,丰富并优化SaaS、MaaS(ModelasaService,模型即服务)等服务方式,整合生态资源,提供更多结合行业领域业务场景的应用服务。一方面,充分发挥行业龙头企业在生态培育方面的引领作用,以开放兼容为原则,加快技术研发、产品开发、开源社区建设等,吸引更多懂业务、有数据的生态伙伴参与SaaS、MaaS层应用产品和服务开发,形成开放协同的创新生态。另一方面,在普及IaaS服务的基础上,推广SaaS、MaaS等服务方式,结合行业数字化转型需求,积极发展诊断咨询、方案设计、迁移服务、数据应用服务、知识技能培训、资源运维管理等上云应用服务,进一步建立用云安全理赔机制,打消用户使用公有云服务的安全顾虑。
以统筹为原则,加强集约建设、推动高效发展
算力资源供给具有初始固定投入高、边际成本递减和边际收益递增的特点,通过规模化经营、集约化发展,能够在更好满足用户算力资源弹性使用需求的同时,提高资源的使用率、降低平均使用成本。我国算力发展要强化增量资源布局,推动存量资源整合,提高算力资源综合利用率。一是加强对算力资源布局和结构优化的引导,鼓励适度超前、“质”“量”同步规划建设算力资源,支持以公有云服务方式提供算力服务,避免盲目上马、无序建设造成重复投资和资源闲置。二是鼓励市场主体通过集约化建设、规模化经营降低单位算力资源供给成本,提供更具性价比的算力资源服务和更有竞争力的产品服务方案。三是加强政企协同,通过构建多元化运营生态,调动社会各界积极性、发挥参与各方的资源和能力优势,推动区域内规模小、分散运营的数据中心资源整合,提高存量资源的综合利用率。
04、结语
在人工智能时代,从模型预训练到模型部署再到推理应用,算力的需求呈指数级增长,公有云将成为破解算力资源紧张、算力成本高昂的关键抓手。本文系统梳理了人工智能时代公有云发展过程,分析了我国公有云在市场规模、服务结构和资源利用等方面的发展趋势和面临的挑战。本文研究认为应以需求为导向,完善产业生态、优化服务供给;以应用为牵引,强化开放协同、提升服务效能;以统筹为原则,加强集约建设、推动高效发