作者:丰宁
日前,国务院国资委召开的AI人工智能专题推进会火爆全网,受到了行业的广泛关注。
会议要求,中央企业要主动拥抱人工智能带来的深刻变革,把加快发展新一代人工智能摆在更加突出的位置。会议强调“要夯实发展基础底座,把主要资源集中投入到最需要、最有优势的领域,加快建设一批智能算力中心”;“强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态”。会上有10家中央企业签订倡议书,表示将主动向社会开放人工智能应用场景。作为国民经济的重要支柱,央企在人工智能领域的布局和发展更是备受关注。央企加速布局人工智能,将为相关行业带来新的发展机遇,同时也体现了国家对于人工智能的高度重视和大势所趋。
随着全球AI技术的快速发展,智能算力已成为推动经济增长和社会进步的关键要素。中国作为全球最大的经济体之一,正积极应对这一技术变革,加强智能算力的研发和应用,以提升国家竞争力。
在深入了解中国在智算市场的布局之前,先来了解一下什么是“智能算力”?我们日常生活中都有哪些时候会接触到智能算力?
何为智能算力?
按照《中国算力白皮书(2022年)》的定义,算力主要分为四部分:通用算力、智能算力、超算算力、边缘算力。通用算力以CPU芯片输出的计算能力为主;智能算力以GPU、FPGA、AI芯片等输出的人工智能计算能力为主;超算算力以超级计算机输出的计算能力为主;边缘算力主要是以就近为用户提供实时计算能力为主,是前三种的组合。
单从概念上看似乎觉得有一些遥远,但实际上,智能算力已经深入到了我们生活的方方面面。倘若说起春节档电影中的特效、渲染和人脸识别,或者是我们日常使用的智能客服、语音翻译等应用,这些背后都离不开智能算力的支持。
如果说人工智能是创新的加速器,那么智算中心则可以为各类技术创新提供支撑。
大模型引发算力缺口,中国需要多少智能算力?
2023年众多大模型产品发布,基于大模型的AIGC技术在文本生成、知识回答、图像生成、逻辑推理等方面表现出远超预期的效果,吸引了大量用户与市场关注。
据不完全统计,截至2023年10月,中国大模型创新主体共254家,分布于20余个省市/地区,其中,北京122家,数量居全国首位。截至2024年1月,备案上线大模型38款,占全国近一半。百度发布文心一言4.0,用户规模过亿,日均调用量达千万次;智谱AI研发第四代基座大模型GLM4,开源版全球下载量超1000万次,是目前开源影响力最高的国产大模型;百川智能发布实现全球最长上下文窗口的大模型Baichuan2,开源版仅四个月全球下载量超600万次;中科院自动化所发布全球首个千亿参数多模态大模型紫东太初2.0。在深度学习框架方面,百度飞桨知名度与使用率均处国内第一梯队,国内市占率近36%,截至2023年12月底,已凝聚1070万开发者,服务23.5万家企事业单位。
在实际应用中,利用AI技术自动生成内容的生产方式打造的“数字人”效果媲美真人水平;人工智能预测蛋白质结构给基础研究带来全新的研究手段;人工智能驱动的聊天机器人能够学习和理解人类的语言并与人类进行对话;华为云开发的“盘古气象大模型”在预报台风轨迹和登陆时间方面大显身手……
看得见的AIGC蓬勃发展背后,是看不见的智能算力在支撑。大模型爆发掀起了新一轮AI热潮,也改变了智能算力需求与格局。
工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发的《算力基础设施高质量发展行动计划》提出到2025年,中国算力规模超过300EFLOPS,智能算力占比达到35%。
说到这里可能会有人发问:FLOPS是什么?300EFLOPS是什么水平?
FLOPS是算力的单位,衡量算力资源每秒进行浮点运算的次数,是Floating-point operations per second的英文缩写。它常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中,比如机器视觉相关图像处理的训练与推理。
FLOPS前面加上字母表示更大的算力单位:
一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算。
一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算。
一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算。
一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算。
一个EFLOPS(exaFLOPS)等于每秒一百亿亿(=10^18)次的浮点运算。
下面举几个例子方便了解:通过大量数据样本进行人工智能模型训练时,根据数据规模、检测效果、模型类别的不同,训练一次的算力需求大概为2-19PFLOS不等;在人脸、语言识别的推理过程中,根据识别精度、并发数量等的不同,对算力的需求跨度可能从10GFLOPS-64TFLOPS,智能驾驶为完成环境感知、决策避障、自车定位等功能时的算力需求大概为8TFLOPS。
截至2023年6月底,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到197EFLOPS,位居全球第二。
在大模型需求驱动下,智算中心项目如雨后春笋般涌现。
30余座城市抢建智算中心
随着下游算力需求的集中爆发和“东数西算”的推进,各级政府、运营商、互联网企业纷纷开启智算中心建设计划。据国家信息中心与相关部门联合发布的《智能计算中心创新发展指南》显示,目前全国正在建设或提出建设智算中心的城市已经超过30个,经典案例包括京津冀大数据智算中心、长沙5A级智能计算中心等。
智算中心建设的企业主体则包括三大电信运营商和部分互联网企业。运营商推动建设的智算中心具有一定公共服务属性,成为政府主导的算力基础设施建设的良好补充。以百度、阿里、腾讯为代表的互联网企业也纷纷建设智算中心,以推动自身业务发展、更好地推动客户人工智能场景落地。
前瞻结合至顶智库统计,截至2023年8月,中国已投入运营和在建的智算中心分布在北京、上海、南京、杭州等多个城市。从区域分布来看,中国智算中心集中于东部地区和中部地区。其中,东部地区智算中心数量达25个,占比62.5%,排名第一,以京津冀和长三角地区为主;中部地区占比17.5%,排名第二;西部和东北地区的智算中心数量占比分别为12.5%和7.5%。
值得注意的是,北京是发力智算中心的主要地区之一。北京在海淀、朝阳、经开区、石景山、门头沟、大兴、丰台等区均布局智算中心,目前已建成智能算力总规模约5000P。
近日,石景山区北重科技文化产业园的四跨厂房已开启火热的改造施工,建成后初期将具备610P的算力,相当于30万台高性能电脑的计算能力,可供一个人工智能大模型在30秒内完成对近1000万张图片的学习和识别,预计今年10月即可建成投用。
刚刚开年就动作频频
新年伊始,各大运营商便积极行动起来,纷纷加强在智能计算中心领域的布局。
1月8日,中国移动智算中心(武汉)在武汉未来科技城开放运营,已建成1500PFLOPS服务能力,到今年底计划扩容至6800PFLOPS,成为华中地区规模最大的智算中心。
1月22日,上海电信在上海点亮“大规模算力集群暨人工智能公共算力服务平台”,计划2024上半年在上海规划建设到达15000卡,总算力超4500P,其中单池新建国产算力达万卡,预计成为国内首个超大规模国产算力液冷集群。
1月30日,中国联通人工智能创新中心成立仪式在京举行。值得注意的是,2023年11月24日中国联通长三角(芜湖)智算中心项目才正式开工。
可以看到电信、移动、联通三大电信运营商正在聚力“东数西算”数据中心集群建设,全力推进各自相关项目,加快打造全国算力中心城市和智算中心,促进数字经济与实体经济深度融合。
AI服务器是智算中心建设中最关键的设备
AI服务器是智算中心建设中投入比重最大、最为关键的设备。
据市场研究机构IDC的最新报告显示,从2022上半年到2023年上半年,中国AI服务器市场规模成长了54%,其中GPU服务器依然是主导地位,占据92%的市场份额,达到30亿美元。同时NPU、ASIC 和 FPGA等非GPU加速服务器以同比17%的增速占有了8%的市场份额,达到2亿美元。
2023年上半年,从厂商销售额角度看,浪潮、新华三、宁畅位居前三,占据了70%以上的市场份额;从服务器出货台数角度看,浪潮、坤前、宁畅位居前三名,占有近60%的市场份额。
AI服务器依赖高性能芯片供给。中国市场面临的算力缺口给国内的芯片发展带来新的机遇。中国本土的AI芯片厂商发展正处于快速增长的阶段并取得了显著的成就,吸引了大量的投资和关注。这些企业在AI芯片设计、算法优化、生产制造等方面具备了一定的实力和竞争优势。此外,中国政府的政策支持也起到了重要的推动作用。2023年上半年,中国加速芯片的市场规模超过50万张。从技术角度看,GPU卡占有90%的市场份额;从品牌角度看,中国本土AI芯片品牌出货超过5万张,占比整个市场10%左右的份额。
从国产AI服务器所需的AI加速芯片的供应商来看,目前国内阿里巴巴(含光系列)、百度(昆仑系列)、华为(昇腾系列)等云服务提供商都有自研的云端AI加速芯片。还有寒武纪(思元系列)、海光信息(深算系列)、燧原科技、天数智芯、壁仞科技、摩尔线程、沐曦等。此外,景嘉微、龙芯中科等也在研发云端AI加速芯片。
从2023年上半年的数据来看,中国AI服务器芯片国产化率较去年出现了下降,比例从去年的15%左右下降到10%左右。这主要是因为高端训练服务器的需求大幅增长,而国产芯片性能难以跟上。
为了进一步提升国产AI服务器的性能,不仅需要芯片厂商在技术上持续创新,提高芯片的性能和稳定性,还需要这些芯片厂商深入了解市场需求,开发出更符合实际应用场景的芯片产品。同时,政府、企业和研究机构也应加大投入,支持国产芯片产业的发展,为其提供更多的研发资源和市场机会。
如何让智算中心真正用起来?
智算中心建成后,如何令其在运营过程中发挥更大的作用,依旧是一个非常关键的问题。
当下智算中心已逐渐赋能区域产业集群发展,但值得注意的是,其在多元算力融合、上下游协同、建设应用联动、能源消耗、使用价格等方面仍面临诸多挑战。
比如:通用算力和专用算力还有待融合。在自动驾驶、智慧医疗、智慧城市等不同场景中,算力需求不同。单一化算力方案难以满足多元算力需求,不能兼顾多产业和多领域。
算力、算法和数据协同不足。这些年来建设的智算中心,不同的芯片平台、算法模型、数据库、应用层面部分处于垂直一体化“孤岛”状态,软硬件兼容性问题有待改进。
投资建设运营有待联动。智算中心投资、建设和运营往往由不同主体负责。前期建设单位往往对建设后运营的模式、服务标准投入不足,出现了管头不管尾、建设运营割裂的现象,影响客户体验。
碳排放和能耗高。设备自身的能耗排放带来非常大的挑战,比如OpenAI公司的超大规模预训练模型GPT-3训练所需的耗电量为19万千瓦时,相当于2021年人均用电量的228倍。
投资成本和应用价格待规范。智算中心的投建成本较高,部分智算中心每 100P半精算力的投资成本高达5亿-6亿元,远远高出正常市场价格,同时使用成本也较高,比如据保守估计GPT-3大模型训练费用超过1200万美元。
智算中心建设需要结合建设基础、当地或区域产业特色,分类引导施策,改建并行,发展与数字经济相适应的智算中心;还需要选择合理的建设和运营模式,实现长效运营、促进有序布局,保证智算中心所释放的经济社会效益最大化。
如今中国智算中心产业发展正在克服1.0时代的挑战进入2.0时代,中国在智算中心的建设中,始终坚持以算力融合、软硬协同、建运一体、能耗低碳、成本优化、需求牵引、安全可信为基础,稳步推进智算中心的发展。