只需几个关键词,一张静态照片也能跟着音乐节奏跳科目三;投喂几段文章之后,可根据要求生成文笔优美、逻辑严密的佳作;只需要10秒钟的声音,就能逼真地实现音色克隆,让跑调大王的歌声媲美专业歌手,让相声演员开口飙英语......
在过去,提及这些应用场景,人们或许会认为它们是遥不可及的幻想。然而,在AI时代,得益于人工智能的三驾马车——数据、算法、算力的强力支撑,这些曾经的幻想已经逐一变为现实。
在这三大支柱中,算力扮演着尤为关键的角色。它不仅是数据和算法能够发挥效用的基础底座,更是推动人工智能高质量发展的核心驱动力。可以说,没有强大的算力作为支撑,人工智能的进步和发展将受到极大的限制。
随着生成式AI等人工智能应用的兴起,以及大模型训练等新需求的不断涌现,算力规模正在经历前所未有的快速增长。在这一背景下,AI服务器已然成为智能算力的核心载体。相较于传统服务器,AI服务器在计算、存储及网络传输能力上均展现出显著优势,能够满足日益增长的智能算力需求。
然而,智能算力需求的指数级增长,导致IT基础设施支出也在不断攀升。如何在确保企业业务连续性和稳定性的同时,最大限度地提高服务器利用率以实现成本优化和效益最大化,已成为众多企业面临的共同挑战。
本期的《数智QA》,我们将通过问答的形式,从硬件配置、软件优化、产品设计等多个维度,深入探讨构建高效、稳定、可靠的AI服务器所需的关键能力。
Q、AI浪潮之下,算力发展呈现哪些趋势?
未来算力发展将呈现以下趋势:
异构计算成为主流:传统堆CPU的模式已无法满足日益增长的AI计算需求。搭载GPU、NPU、ASIC等芯片的异构计算正逐渐成为主流。异构模式能够大幅提升AI计算效率,满足各种复杂应用场景的需求。
边缘计算成为重要补充:边缘计算将算力资源部署在离终端设备更近的位置,满足AI应用实时性、安全性等业务需求。
机架密度不断提高:鉴于数据中心的空间限制,提高机架密度成为数据中心设计的一个重要趋势。
智能算力重要性日益凸显:为了适应这一趋势,智算中心的建设已经转向混合架构模式,成为行业发展的必然趋势。
Q、AI服务器和普通服务器有何不同?
AI服务器,是专门为人工智能应用场景设计的服务器。AI服务器主要用于处理大规模、复杂计算任务,如AI深度学习训练、推理等,以满足各种AI应用的需求。
AI服务器与普通服务器的不同之处主要表现在:
处理能力:得益于高性能处理器和专用加速器加持,AI服务器的处理能力更高,可满足AI大模型训练等需要大量算力计算的应用场合。而普通服务器则主要针对一般性的网络应用进行优化,对于处理大规模数据和复杂计算任务会有一定的瓶颈。
存储容量:AI服务器通常拥有庞大的存储集群配合,以满足处理大规模数据需求。而普通服务器则根据应用场景进行不同的存储配置,存储容量相对有限。
高速网络:AI服务器对网络带宽、时延、抖动、丢包等有更高的要求。通常,AI服务器需要采用InfiniBand、RoCE等形式的高速网络,以满足AI大规模并行计算要求。而普通服务器一般采用TCP/IP网络即可满足业务需求。
能源消耗:由于AI服务器需要处理大量的计算任务,因此其能源消耗相对较高,目前主流AI服务器满载时功耗甚至可达10kW。而普通服务器在处理一般网络应用时,能源消耗相对较低,功耗大约只有0.5kW左右。
应用场景:AI服务器主要用于处理人工智能应用场景下的计算任务,如深度学习训练、推理等。而普通服务器则广泛应用于各种网络应用,如Web应用、数据库应用等。
Q、适配不同场景,AI服务器有哪些类型?
AI应用可分为AI训练和AI推理两大应用场景。针对这两大应用场景对算力的不同需求,AI服务器分为训练服务器、训推一体服务器、推理服务器和边缘服务器等。
AI训练服务器:主要用于训练机器学习模型,需要提供强大的智能算力来满足大模型的训练需求。
AI推理服务器:主要用于运行已经训练好的AI模型,对新的输入数据进行预测或分类等任务。联想ThinkSystem SR645 V3服务器就是其中的典型代表。该服务器可承接复杂的AI推理负载,两颗4代AMD EPYC处理器提供最多256核。多个PCIE4.0及PCIE5.0插槽使得用户可根据业务需求灵活扩展配置。设备支持最多4个单宽GPU,充分满足用户AI推理应用需求。
AI训推一体服务器:结合了训练和推理的功能,旨在提供一站式的AI智能算力解决方案。以联想问天WA5480 G3 AI训推一体服务器为例,该服务器可支持多元算力,丰富的PCIE5.0接口至多可支持10张双宽GPU,支持推理,训练,渲染,科学计算等多种场景以及多种拓扑,进一步拓展了在不同应用中的适用性。
AI边缘服务器:主要用于在边缘计算场景中进行推理任务,即在离用户更近的地方进行计算,以减少数据传输延迟和提高响应速度。边缘服务器通常具有较小的体积和功耗,以适应边缘环境的限制。最近,联想推出了全新的ThinkEdge SE455 V3边缘服务器,进一步丰富了联想AI边缘服务器产品线。该产品搭载AMD EPYC 8004系列系列处理器,性能提升34%,可大幅提升多任务处理效率。得益于联想技术创新和设计优化,SE455 V3至高可节省50%能源。丰富的扩展特性可满足存储、网络及GPU扩展需求。
Q、如何保证AI服务器高效、稳定和可靠?
通过合理的硬件配置、优秀的散热和能源管理、系统优化和调优、高可用性和容错设计、高标准的品控等措施,可以有效地保证AI服务器的高效、稳定和可靠运行。
合理的硬件配置:通过选择高性能的处理器及GPU等加速设备、内存和存储设备,可满足AI应用的高计算量、高内存和高存储需求,显著提升AI大模型训练及推理效率。比如,联想问天WR5220 G3服务器就采用了英特尔最新发布的第五代至强®可扩展处理器,最多可支持两颗64核、385W TDP热功耗设计。新一代平台搭载5600MT/s高性能DDR5内存、低延迟高带宽的NVMe和PCIe 5.0扩展插槽、最新的GPU性能,可充分发挥系统性能。
优秀的散热和能源管理:设计合理的散热系统,保证服务器在高负载运行时也能保持高效性能输出。同时,有效的能源管理策略,可显著降低能耗并提高能源利用效率。面对不断提升的CPU、GPU TDP热功耗值,液冷被认为是突破风冷散热瓶颈的关键技术。广受赞誉的联想海神(Neptune™)温水水冷技术可实现整机柜全水冷无风扇设计,服务器散热效率可达98%,并支持余热回收,能耗降低42%,数据中心PUE可降至1.1。同时,并行水路设计可降低CPU等设备的性能抖动,Linpack性能相比风冷散热方式提升5-10%。联想海神温水水冷技术全球部署已经超过7万套,再次夯实服务器水冷技术领域领跑者地位,持续助力企业绿色可持续发展。在能源管理方面,联想LiCO管理平台可以监控集群的能耗情况,并提供能源管理策略。LiCO能够动态调整CPU的运行频率,并根据系统运行情况,动态调整风扇的运行速度,进而降低整个集群的能耗。
系统优化和调优:对操作系统、AI框架和算法库等进行优化和调优,以提高服务器的整体性能和稳定性。比如,在作业调度优化方面,联想LiCO可以通过智能作业调度算法以及集群管理软件的使用,将并行计算任务合理地分配到计算节点上,减少任务之间的资源竞争和排队等待时间,提高集群的效率并降低能耗。
高标准品控:为了追求更高品质,提高服务器的可靠性和稳定性,每一台服务器都应该执行严苛的品控标准。严格的品控措施贯穿了联想服务器从设计、研发、生产和测试的每一个阶段。比如在出厂前,联想服务器会做百分百1000V DC Hipot测试(高电压耐压测试),保证每一片板卡的超高耐压质量均超越业界的测试标准。截止2023年12月14日,联想服务器共斩获536项性能测试世界纪录,通过87项NCTC检测认证。
Q、怎样提高服务器运维效率,保证业务连续性?
一个易于维护的服务器能够显著降低企业的运维成本、缩短停机时间,并确保IT系统的持续稳定运行,帮助企业告别运维烦恼。
以联想AI服务器为例。联想在服务器中采用了创新的无工具安装设计,能够快速、轻松更换故障组件,使得内部核心部件的安装部署更加便捷。同时,服务器内部的可更换组件统一使用蓝色标识,运维人员可以快速准确分辨,自行更换组件,从而降低因操作不当导致损坏的风险。得益于采用通用部件,联想服务器简化了对所有架构平台的支持,极大方便了后期维护。
此外,联想服务器还提供了其他易于维护的设计。例如光通路诊断,使用LED标识出现故障的内存插槽及硬盘,可显著缩短维护和停机时间。依赖于热插拔部件,在不切断电源的情况下即可轻松更换服务器部件,从而缩短了停机时间,并避免因更换硬件设备可能导致的数据丢失或损坏风险。
联想服务器还支持一键秒维护功能。比如,通过专利设计的两个塑胶部件,即可将Internal Raid卡一键固定在服务器主板上,代替以往需要通过锁螺丝的繁琐方式,降低了操作难度。此外,一键式固定方式极大提升了部件装配效率,开启秒级维护。
机构预测,2024年全球AI服务器有望突破160万台,年增长率达40%,业界对包括AI服务器在内的智能基础设施爆发出强劲的需求。作为全球领先的算力基础设施和服务提供商,联想将依托全栈智能的产品、方案及服务,推动AI技术的持续发展和应用,赋能千行百业加速智能化转型,共同把握AI时代新机遇。