作者:丰宁
在 2024 年的今天,人工智能已经渗透到各个领域,从医疗诊断到智能交通,从金融分析到智能家居,AI 技术的发展正以前所未有的速度改变着我们的生活和工作方式。
这一背景下,算力和存力成为了支撑人工智能发展的两大关键要素。究竟算力与存力谁更重要,成为了一个备受关注的问题。
01何为算力与存力?
算力,顾名思义,是指计算能力。
算力是数字时代的核心驱动力之一。随着人工智能、大数据等技术的不断进步,算力的需求呈现出爆炸式增长。从云端的大规模数据处理到边缘设备的实时计算,算力的提升使得我们能够更快地处理数据、更准确地模拟复杂现象。
存力即数据存储能力。海量的数据需要安全、可靠的存储空间,而存力就是提供这一空间的关键。大数据、云存储、区块链等技术的发展,使得数据的存储和管理变得更加高效。同时,随着数据价值的不断提升,存力的重要性也日益凸显。强大的存力不仅可以保证数据的安全性和可靠性,还能够为数据分析和挖掘提供坚实的基础。除了算力与存力,还有“一力”与这二者并称为“数据时代的三把利剑”,即运载力,简称运力。
运力是信息传递的关键。在数字世界中,数据的快速传输和高效共享至关重要。高速的网络连接、稳定的带宽以及低延迟的通信,这些都是运力的体现。去年,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年,计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%,东西部算力平衡协调发展。
运载力方面,国家枢纽节点数据中心集群间基本实现不高于理论时延1.5倍的直连网络传输,重点应用场所光传送网(OTN)覆盖率达到80%,骨干网、城域网全面支持IPv6,SRv6等创新技术使用占比达到40%。
存储力方面,存储总量超过1800EB,先进存储容量占比达到30%以上,重点行业核心数据、重要数据灾备覆盖率达到100%。算力、存力与运力皆举足轻重,而要论谁最重要,恐怕多数人都会觉得是算力。毕竟,“算力紧缺”的气氛常常被渲染起来。
02争抢GPU,以期获得更多算力
那么,如何获取更多的算力呢?当下,主流的途径是通过堆积算力芯片来实现,包括 CPU、GPU、FPGA、ASIC 等,其中GPU的应用最为广泛。在 AI 大火之际,科技巨头们纷纷投身于一场激烈的 GPU 争夺战中。值得注意的是,由于单卡算力相对有限,为了缩短训练时间,通常采用分布式训练技术,通过多台节点构建出一个计算能力和显存能力超大的集群。从建设进度上看海外头部厂商在2022年、2023年已经完成万卡集群搭建,国内头部互联网厂商和电信运营商也加速万卡集群建设布局。2023年5月,谷歌推出的AI超级计算机A3,搭载了约26000块英伟达H100 GPU。
在2022年,META宣布了一个由1.6万块英伟达A100 GPU组成的集群。到了2024年初,META进一步扩大规模,建成了两个各含24576块GPU的集群,并设定了宏伟目标:到2024年底,构建一个包含35万块英伟达H100 GPU的庞大基础设施。2023年8月,特斯拉上线了一个集成1万块英伟达H100 GPU的集群。亚马逊的Amazon EC2 Ultra集群采用了2万个H100 TensorCore GPU。腾讯推出的星脉高性能网络,能够支持高达10万卡GPU的超大规模计算,网络带宽高达3.2T。字节跳动提出的MegaScale生产系统,支撑12288卡Ampere架构训练集群。中国移动计划今年商用哈尔滨、呼和浩特、贵阳三个自主可控的万卡集群,总规模接近6万张GPU卡。
中国电信计划在2024年上半年在上海规划建设一个达到15000卡、总计算力超过4500P的国产万卡算力池,这将是国内首个超大规模国产算力液冷集群。2024年3月,天翼云上海临港国产万卡算力池已正式启用。中国联通计划在今年内,在上海临港国际云数据中心建成中国联通首个万卡集群,这一集群的建成,将为中国联通在数据中心和云计算市场提供新的竞争优势。
可以看到,万卡集群的建设正如火如荼地进行着。然而,当拥有如此众多的算力芯片时,它们是否已充分发挥出最大潜力呢?
就目前状况而言,答案似乎是否定的。因为算力的释放并非仅仅关乎 GPU 等算力芯片,而是需要全面考虑数据存储、处理速度、网络传输等多个环节的协同作用。
在此背景下,存力作为算力释放过程中的重要一环,其潜力和价值逐渐受到重视。这时候,或许会有读者发问:存力是否能成为提升算力水平、优化算力利用的关键因素?存力究竟能在哪些方面为算力提供助力?以及,为了更有效地支持算力的提升,存力又该如何发展?
03存力,如何助力算力?
如今随着大模型进一步演进,不同要素的资源配置情况逐步发生了改变。其中,数据的重要性正提到了前所未有的高度,由此也正在带来对存储越来越严苛的要求。在一个全新的视角下,数据与其背后的“存力”,正在成为影响大模型创新整体过程的关键因素。存力给算力带来的助力主要有以下几点:
首先,高效的存储能力直接促进了数据处理速度的飞跃。随着大模型训练过程中数据量的爆炸性增长,快速、稳定的数据读取与写入成为提升模型训练效率的关键。存力通过优化存储架构、采用高性能存储介质以及智能数据管理技术,实现了数据访问的低延迟与高并发,极大地缩短了数据处理周期,使得模型能够更快地从海量数据中汲取知识,加速迭代与优化。
其次,存力增强了数据的安全性与可靠性。在大数据时代,数据泄露与丢失的风险日益增加,而强大的存力体系通过加密存储、多副本冗余、容灾备份等机制,确保了数据的完整性和安全性,为模型的持续运行提供了坚实后盾。
再者,存力还促进了数据的高效共享与协同。在大模型研发过程中,跨团队、跨领域的数据合作日益频繁,高效的存力系统能够支持数据的快速传输与无缝对接,打破信息孤岛,促进知识融合与创新。通过构建统一的数据管理平台,实现数据的集中管理、按需分配与权限控制,不仅提高了数据资源的利用效率,也加速了科研成果的转化与应用。
最后,存力的发展还推动了智能化存储解决方案的诞生,为大模型提供了更加灵活、智能的数据支撑。借助AI算法与机器学习技术,智能存储系统能够自动识别数据特征、优化存储布局、预测并满足数据访问需求,从而进一步提升数据处理的智能化水平。这种智能化存储与大模型的深度融合,将为未来的科技创新带来无限可能。
通俗来讲,在人工智能的蓬勃发展进程中,仅仅拥有强大的 GPU 还远远不够。毕竟数据在处理之前,需要先“搬过来”。有数据显示,一个规模达 20 亿的数据集,拷贝准备大约整整 30 天。这就意味着倘若没有出色的存储系统作为支撑,GPU也“巧妇难为无米之炊”。再者,在后续的加密存储以及数据共享等方面,存力皆为算力带来诸多强大助力。
倘若用建造高楼大厦举例子,算力便是高耸入云的建筑主体,而存力则是坚实的地基,只有地基稳固,大厦才能拔地而起。因此,倪光南院士也曾表示,算力中心的计算能力由存力、算力、运力三个因素决定。倪光南院士认为,用广义算力去定义一个算力中心,才更准确。
04、需要什么样的存储?
利用SSD来取代HDD
从存储方式来看,近些年中国数据量的发展十分迅猛,每年的复合增长率约是30%左右。主要采用机械硬盘HDD,先进半导体存储技术滞后。闪存和SSD都属于半导体存储范畴,前者指存储介质(闪存颗粒)后者指存储设备(固态硬盘) 。从存储领域的闪存市场占比情况来审视,在全球范围内,闪存平均水平达到了 41.3%。而美国在这一领域表现突出,闪存占比高达 56.4%。
相比之下,中国的闪存市场占比仅为 20.3%,与全球平均水平和美国相比仍存在一定差距。海量数据的增长,对我国存储提出了更高的需求,先进存力成为了存力的重要发展方向。先进存力主要是指企业级存储中更加先进的存力,其以“大容量、高性能”为基础,以“先进介质、高效架构”为支撑,以“开放生态、绿色低碳、安全可靠”为关键,可应用于更广泛的关键场景的存储能力。
针对这一现象,中国存储可以做出的改进之一便是利用SSD来取代HDD。当前SSD的演进主要通过两方面:一方面是容量,另一方面是性能和功耗。在容量方面,AI时代对于高容量的SSD需求正在快速上升。需要SSD不仅有更大的存储容量,还要能够在不牺牲性能的前提下,通过技术的改进等提高NAND密度。另外,随着 TLC 闪存架构开始达到原始存储容量的极限,QLC 代表了希望不断突破主流消费 SSD 容量极限的 SSD 制造商的未来。
目前,诸多存储厂商都已经发布QLC闪存。在性能和功耗方面,随着数据中心对于存储设备速度要求的不断提升,SSD需要提供更高的IOPS(每秒输入输出操作次数)和带宽(GBPS),在保证高性能的同时必须有效控制功率消耗,实现单位性能所需的能耗降低。可喜的是,中国已经有一些主流的存储芯片公司可以提供达到一线的水平和生产能力的存储产品,在SSD主控芯片方面,国内也已经有十几家厂商的产品得到商用。随着SSD成本的不断下探,有望为存力市场作出更大贡献。
采用先进的存储介质和技术
一些先进的存储介质和技术也可给算力带来一些助力,比如通过研究和开发如相变存储器(PCM)、阻变存储器(RRAM)和磁性存储器(MRAM)等新型 NVM 技术。这些存储器具有高速读写、低功耗、高耐用性和非易失性等优点,可以作为传统存储设备的补充或替代,提高存力和算力。
探索基于新型材料的存储技术,如二维材料(如石墨烯)。这些材料具有独特的物理和电子特性,有望实现更高的存储密度和性能,为未来的存力和算力提升提供新的途径。
发展大容量的光存储技术也是一个不错的想法,光存储具有长期保存数据、高容量和低成本等优点,可以作为离线存储或归档存储的选择,释放其他存储设备的空间,提高存力并为算力提供更多的可用存储资源。通过以上多种方法的综合应用,可以有效地提升存力,进而为算力的提升提供坚实的基础和强大的支持。
05存力中心建设,如火如荼
眼下算力中心兴起的同时,还要建设先进的存力中心。
数与算、存与算存在失衡现象,也导致了数据割裂在不同数据中心中,数据归集难、融合汇聚难、有效治理难、使用加工难、共享流通难,导致算力和应用缺乏有效的高质量数据供给,算力的潜能被抑制,对算力和产业的赋能价值没有充分发挥,数据中心的商业和产业持续正向闭环存在巨大挑战。
基于此,华为作为全球领先的信息与通信技术(ICT)解决方案供应商,致力于建设高性能、高可靠的存力中心,以满足企业数字化转型和智能世界建设的需求。华为通过整合自身在存储技术、云计算、人工智能等领域的优势,为客户提供全方位的存力解决方案,包括数据存储、数据管理、数据保护等服务。
随着云计算业务的不断发展,阿里巴巴也在积极建设大规模的存力中心。通过采用先进的存储技术和架构,如分布式存储、软件定义存储等,阿里巴巴能够为客户提供高可用、高可靠、高扩展性的存储服务。同时,阿里巴巴还在不断探索新的存储技术和应用场景,如边缘存储、云原生存储等,以满足不同客户的需求。
腾讯在云计算、大数据、人工智能等领域拥有强大的技术实力和丰富的经验,也在积极建设存力中心。腾讯通过优化存储架构、提高存储效率、加强数据安全等措施,为客户提供高效、稳定、安全的存储服务。同时,腾讯还在积极探索新的存储技术和应用模式,如智能存储、区块链存储等,以推动存储行业的创新发展。
中国科学院计算技术研究所作为国内顶尖的科研机构,其在存储技术领域拥有深厚的技术积累和强大的研发实力。该研究所致力于建设先进的存力中心,开展存储技术的研究和开发,包括新型存储介质、存储系统架构、存储算法等方面的研究。通过与企业合作,将科研成果转化为实际应用,为我国存储产业的发展提供技术支持。
清华大学计算机科学与技术系在存储技术领域也有着卓越的研究成果和丰富的教学经验。该系积极参与存力中心的建设,开展存储技术的研究和教学工作,培养存储技术领域的专业人才。同时,清华大学还与企业合作,开展产学研合作项目,推动存储技术的创新和应用。
算、存、运在数据时代至关重要。如果说存力已经开始逐渐受到重视,那么国产运力相对来说可能还是一个“小透明”。在大力发展算力、支持存力的过程中,请同步关注“运力”的重要性。