在人工智能(AI)和智能计算产业逐渐成为国家重点发展领域的当下,生成式AI在各行业的应用不断深入,以“大模型+大算力+大数据”为核心的新一代AI发展模式正在形成。为了适应未来计算资源的融合发展趋势,算力基础设施的快速发展变得尤为关键。联想作为智能基础设施及服务提供商,正在面向AI、云计算、大数据等多种计算场景,为中国智算产业发展和生态繁荣,夯实智算基石。
4月18日,联想创新科技大会(2024 Lenovo Tech World)在上海举办。此次大会上,联想发布了万全异构智算平台,以突破当前计算瓶颈。并且,联想集团与中国智能计算产业联盟共同宣布,发起成立异构智算产业生态联盟,联合产业头部生态伙伴共建联想万全生态。
联想携手中国智能计算产业联盟,成立异构智算产业生态联盟
第十四届全国政协委员、中国科学院计算技术研究所研究员张云泉,联想集团副总裁、中国基础设施业务群总经理陈振宽,分别代表中国智能计算产业联盟与联想集团共同启动联盟成立;同时中国科学院院士、生物信息学家陈润生,清华大学计算机科学与技术系教授陈文光,中国信息通信研究院云计算与大数据研究所所长何宝宏,中国智能计算产业联盟秘书长安静,共同参与并见证异构智算产业生态联盟启动仪式。
异构智算产业生态联盟启动
据介绍,异构智算产业生态联盟旨在携手成员共同建设一个分工合作、规范有序、安全健康的智算产业生态,加速大模型推动的智算产业化进程,推动AI基础设施的融合发展,共同提升中国智算产业的水平。异构智算生态联盟成立之后,将持续筹备异构智算相关专家研讨会、异构智算联盟高峰论坛等活动,深入探讨异构智算最新产业趋势、研究成果和创新方向。
异构智算产业生态联盟框架由AI芯片层、AI设备与系统层和AI平台与应用层,能够实现从IaaS平台、AI训练与推理到行业场景解决方案的全覆盖。
目前,异构智算生态联盟首批共计16家成员单位,包括10家国产AI芯片厂商。生态联盟成立后,将陆续发布异构智算最新成果,计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024国家行业发展报告(智能计算方向)》等内容,引导中国智算产业健康发展。
联想集团副总裁、中国基础设施业务群总经理陈振宽表示,智算产业的高速繁荣发展,离不开人工智能产业中每一个努力拼搏,不断创新的企业。联想将持续秉持合作共赢的理念,愿与众多优秀的伙伴们一道,加大资源投入,深耕场景,打磨产品,为中国智算产业的蓬勃发展提供坚实基础。
联想集团副总裁、中国基础设施业务群总经理陈振宽
联想万全异构智算平台,五大创新优化算力使用效率
面向以大模型为基础特征的AI 2.0时代,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。不过,智能计算较通用计算的投入成本、技术门槛更高,广大用户需要一个新的计算开发和管理平台,能够集成算力管理与调度,数据治理与模型优化、训练精调和推理应用开发等多层次的能力,为使用者提供更简单、更高效、更稳定的算力体验。
在此背景下,联想万全异构智算平台应运而生,其差异化价值在于能够以创新技术突破计算效率瓶颈。对于用户而言,异构智算平台能够帮助用户提高应用部署速度,降低业务TCO(全周期使用成本)。在基础设施层面,它能够提升算力利用率和可用性。
据了解,联想万全异构智算平台集成了五大创新技术:算力匹配魔方、GPU内核态虚拟化、联想集合通信算法库、AI高效断点续训技术、AI与HPC集群超级调度器,分别从不同方面帮助用户解决问题。
- 算力匹配魔方:为用户跳过繁杂的算力选择和验证。
基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识AI场景、算法、集群配置这三者的匹配关系。针对不同场景,可以全自动规划和调度最佳算法和集群配置,用户只需输入场景和数据,即可自动加载最优算法和调度最佳集群配置。
- GPU内核态虚拟化:挖掘处理器潜力,让vGPU利用率从80%提升到95%。
在AI推理和中小训练中,子任务通常以虚拟GPU进行承载,业界目前普遍在操作系统层以用户态对GPU做虚拟化,而用户态虚拟化因不能对GPU做深层控制,会造成虚拟算力不稳定,调度开销大等问题,从而造成近20%的算力损耗。
为此,联想研究院开发了在GPU驱动层的内核态虚拟化算法。该算法具备三大革新:一是对算力和显存精准隔离的算法能以<3%的误差精准控制容器资源。二是在GPU驱动层做资源调度,去掉在驱动之上不必要的操作。三是在GPU驱动层将虚拟GPU的颗粒度精细到1%。新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。
- 联想集合通信算法库:突破集群计算瓶颈,使训练效率提升10%—15%。
在大规模的AI集群中,性能释放的最大瓶颈受制于网络通信慢。网络通信慢会导致GPU空闲等待,计算效率降低。针对大规模集群网络通信瓶颈的挑战,联想万全异构智算平台能自动感知集群网络拓扑,并选择和采用经联想增强的集合通信算法使数据传输在最佳路径。以千卡规模集群为例,采用集成了联想集合通信库的联想万全异构智算平台做管理调度,可使网络通信效率提升超10%,并且集群规模越大,效果越显著。
- AI高效断点续训技术:实现分钟级AI断点续训,让AI集群持续可用。
据统计,目前千卡集群每月至少有15次的故障断点。在常规的断点续训手段下,每次恢复训练需要几个小时,产生的额外费用超过百万元。联想万全异构智算平台针对故障特征来对数据做多级备份,大幅精简了备份数据量,同时令备份数据从最佳路径被提取。同时,对大量的AI训练故障进行了特征采样,基于AI故障特征库,开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。此外,联想万全异构智算平台集成了从服务器BMC,存储管理,网络OS的硬件监控,到调度器故障监控,再到对AI训练收敛程度的监控,对AI故障的抓取能够做到万无一失。
由此三大革新,联想能将断点续训恢复时间缩减到分钟级,大幅提升了训练效率。以千卡集群为例,联想每月可节约上百万元算力费用支出,让宝贵的AI算力持续可用。
- AI与HPC集群超级调度器:破局算力孤岛,1小时内自动完成跨集群资源调度和共享。
对于有些同时拥有AI和HPC算力的用户,希望能在不同集群间,根据任务优先级和资源状况,充分共享利用GPU节点。然而,由于AI和HPC集群的调度方式完全不同,用户在不同集群间共享资源时,既要通晓两种调度方法,又要付出大量操作,导致无法实现资源共享。
联想AI与HPC超级调度器架构的精髓之处就是做出能指挥双类型调度的最精简架构,在AI的K8S调度和HPC的Slurm调度之上,能够切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得用户可以充分利用基础设施的每一分算力。
联想万全异构智算平台,作为一个能高度自动化完成AI全流程开发的平台,可输出高可用算力并不断突破计算效率瓶颈的利器。用户可自动完成AI计算并发布模型或发布推理服务。此外,平台也为专业的AI开发用户留有手动深入调整计算过程的空间,包括工具和模型的选择,算力配置的调整,对任务的定制化监控等。
陈振宽表示,“联想万全异构智算平台”是AI 2.0时代联想中国基础设施战略框架的核心。未来联想将挑战超过万卡规模集群的通信算法优化,挑战秒级的断点续训,深入研究相变式液冷技术,布局模块化液冷数据中心,助力联想AI算力朝着更强大、更稳定、更高效和更绿色的方向实现高质量发展。