数智QA｜AI服务器必备技能大起底，哪些因素不可或缺？

只需几个关键词，一张静态照片也能跟着音乐节奏跳科目三；投喂几段文章之后，可根据要求生成文笔优美、逻辑严密的佳作；只需要10秒钟的声音，就能逼真地实现音色克隆，让跑调大王的歌声媲美专业歌手，让相声演员开口飙英语......

在过去，提及这些应用场景，人们或许会认为它们是遥不可及的幻想。然而，在AI时代，得益于人工智能的三驾马车——数据、算法、算力的强力支撑，这些曾经的幻想已经逐一变为现实。

在这三大支柱中，算力扮演着尤为关键的角色。它不仅是数据和算法能够发挥效用的基础底座，更是推动人工智能高质量发展的核心驱动力。可以说，没有强大的算力作为支撑，人工智能的进步和发展将受到极大的限制。

随着生成式AI等人工智能应用的兴起，以及大模型训练等新需求的不断涌现，算力规模正在经历前所未有的快速增长。在这一背景下，AI服务器已然成为智能算力的核心载体。相较于传统服务器，AI服务器在计算、存储及网络传输能力上均展现出显著优势，能够满足日益增长的智能算力需求。

然而，智能算力需求的指数级增长，导致IT基础设施支出也在不断攀升。如何在确保企业业务连续性和稳定性的同时，最大限度地提高服务器利用率以实现成本优化和效益最大化，已成为众多企业面临的共同挑战。

本期的《数智QA》，我们将通过问答的形式，从硬件配置、软件优化、产品设计等多个维度，深入探讨构建高效、稳定、可靠的AI服务器所需的关键能力。

Q、AI浪潮之下，算力发展呈现哪些趋势？

未来算力发展将呈现以下趋势：

异构计算成为主流：传统堆CPU的模式已无法满足日益增长的AI计算需求。搭载GPU、NPU、ASIC等芯片的异构计算正逐渐成为主流。异构模式能够大幅提升AI计算效率，满足各种复杂应用场景的需求。

边缘计算成为重要补充：边缘计算将算力资源部署在离终端设备更近的位置，满足AI应用实时性、安全性等业务需求。

机架密度不断提高：鉴于数据中心的空间限制，提高机架密度成为数据中心设计的一个重要趋势。

智能算力重要性日益凸显：为了适应这一趋势，智算中心的建设已经转向混合架构模式，成为行业发展的必然趋势。

Q、AI服务器和普通服务器有何不同？

AI服务器，是专门为人工智能应用场景设计的服务器。AI服务器主要用于处理大规模、复杂计算任务，如AI深度学习训练、推理等，以满足各种AI应用的需求。

AI服务器与普通服务器的不同之处主要表现在：

处理能力：得益于高性能处理器和专用加速器加持，AI服务器的处理能力更高，可满足AI大模型训练等需要大量算力计算的应用场合。而普通服务器则主要针对一般性的网络应用进行优化，对于处理大规模数据和复杂计算任务会有一定的瓶颈。

存储容量：AI服务器通常拥有庞大的存储集群配合，以满足处理大规模数据需求。而普通服务器则根据应用场景进行不同的存储配置，存储容量相对有限。

高速网络：AI服务器对网络带宽、时延、抖动、丢包等有更高的要求。通常，AI服务器需要采用InfiniBand、RoCE等形式的高速网络，以满足AI大规模并行计算要求。而普通服务器一般采用TCP/IP网络即可满足业务需求。

能源消耗：由于AI服务器需要处理大量的计算任务，因此其能源消耗相对较高，目前主流AI服务器满载时功耗甚至可达10kW。而普通服务器在处理一般网络应用时，能源消耗相对较低，功耗大约只有0.5kW左右。

应用场景：AI服务器主要用于处理人工智能应用场景下的计算任务，如深度学习训练、推理等。而普通服务器则广泛应用于各种网络应用，如Web应用、数据库应用等。

Q、适配不同场景，AI服务器有哪些类型？

AI应用可分为AI训练和AI推理两大应用场景。针对这两大应用场景对算力的不同需求，AI服务器分为训练服务器、训推一体服务器、推理服务器和边缘服务器等。

AI训练服务器：主要用于训练机器学习模型，需要提供强大的智能算力来满足大模型的训练需求。

AI推理服务器：主要用于运行已经训练好的AI模型，对新的输入数据进行预测或分类等任务。联想ThinkSystem SR645 V3服务器就是其中的典型代表。该服务器可承接复杂的AI推理负载，两颗4代AMD EPYC处理器提供最多256核。多个PCIE4.0及PCIE5.0插槽使得用户可根据业务需求灵活扩展配置。设备支持最多4个单宽GPU，充分满足用户AI推理应用需求。

AI训推一体服务器：结合了训练和推理的功能，旨在提供一站式的AI智能算力解决方案。以联想问天WA5480 G3 AI训推一体服务器为例，该服务器可支持多元算力，丰富的PCIE5.0接口至多可支持10张双宽GPU，支持推理，训练，渲染，科学计算等多种场景以及多种拓扑，进一步拓展了在不同应用中的适用性。

AI边缘服务器：主要用于在边缘计算场景中进行推理任务，即在离用户更近的地方进行计算，以减少数据传输延迟和提高响应速度。边缘服务器通常具有较小的体积和功耗，以适应边缘环境的限制。最近，联想推出了全新的ThinkEdge SE455 V3边缘服务器，进一步丰富了联想AI边缘服务器产品线。该产品搭载AMD EPYC 8004系列系列处理器，性能提升34%，可大幅提升多任务处理效率。得益于联想技术创新和设计优化，SE455 V3至高可节省50%能源。丰富的扩展特性可满足存储、网络及GPU扩展需求。

Q、如何保证AI服务器高效、稳定和可靠？

通过合理的硬件配置、优秀的散热和能源管理、系统优化和调优、高可用性和容错设计、高标准的品控等措施，可以有效地保证AI服务器的高效、稳定和可靠运行。

合理的硬件配置：通过选择高性能的处理器及GPU等加速设备、内存和存储设备，可满足AI应用的高计算量、高内存和高存储需求，显著提升AI大模型训练及推理效率。比如，联想问天WR5220 G3服务器就采用了英特尔最新发布的第五代至强®可扩展处理器，最多可支持两颗64核、385W TDP热功耗设计。新一代平台搭载5600MT/s高性能DDR5内存、低延迟高带宽的NVMe和PCIe 5.0扩展插槽、最新的GPU性能，可充分发挥系统性能。

优秀的散热和能源管理：设计合理的散热系统，保证服务器在高负载运行时也能保持高效性能输出。同时，有效的能源管理策略，可显著降低能耗并提高能源利用效率。面对不断提升的CPU、GPU TDP热功耗值，液冷被认为是突破风冷散热瓶颈的关键技术。广受赞誉的联想海神（Neptune™）温水水冷技术可实现整机柜全水冷无风扇设计，服务器散热效率可达98%，并支持余热回收，能耗降低42%，数据中心PUE可降至1.1。同时，并行水路设计可降低CPU等设备的性能抖动，Linpack性能相比风冷散热方式提升5-10%。联想海神温水水冷技术全球部署已经超过7万套，再次夯实服务器水冷技术领域领跑者地位，持续助力企业绿色可持续发展。在能源管理方面，联想LiCO管理平台可以监控集群的能耗情况，并提供能源管理策略。LiCO能够动态调整CPU的运行频率，并根据系统运行情况，动态调整风扇的运行速度，进而降低整个集群的能耗。

系统优化和调优：对操作系统、AI框架和算法库等进行优化和调优，以提高服务器的整体性能和稳定性。比如，在作业调度优化方面，联想LiCO可以通过智能作业调度算法以及集群管理软件的使用，将并行计算任务合理地分配到计算节点上，减少任务之间的资源竞争和排队等待时间，提高集群的效率并降低能耗。

高标准品控：为了追求更高品质，提高服务器的可靠性和稳定性，每一台服务器都应该执行严苛的品控标准。严格的品控措施贯穿了联想服务器从设计、研发、生产和测试的每一个阶段。比如在出厂前，联想服务器会做百分百1000V DC Hipot测试（高电压耐压测试），保证每一片板卡的超高耐压质量均超越业界的测试标准。截止2023年12月14日，联想服务器共斩获536项性能测试世界纪录，通过87项NCTC检测认证。

Q、怎样提高服务器运维效率，保证业务连续性？

一个易于维护的服务器能够显著降低企业的运维成本、缩短停机时间，并确保IT系统的持续稳定运行，帮助企业告别运维烦恼。

以联想AI服务器为例。联想在服务器中采用了创新的无工具安装设计，能够快速、轻松更换故障组件，使得内部核心部件的安装部署更加便捷。同时，服务器内部的可更换组件统一使用蓝色标识，运维人员可以快速准确分辨，自行更换组件，从而降低因操作不当导致损坏的风险。得益于采用通用部件，联想服务器简化了对所有架构平台的支持，极大方便了后期维护。

此外，联想服务器还提供了其他易于维护的设计。例如光通路诊断，使用LED标识出现故障的内存插槽及硬盘，可显著缩短维护和停机时间。依赖于热插拔部件，在不切断电源的情况下即可轻松更换服务器部件，从而缩短了停机时间，并避免因更换硬件设备可能导致的数据丢失或损坏风险。

联想服务器还支持一键秒维护功能。比如，通过专利设计的两个塑胶部件，即可将Internal Raid卡一键固定在服务器主板上，代替以往需要通过锁螺丝的繁琐方式，降低了操作难度。此外，一键式固定方式极大提升了部件装配效率，开启秒级维护。

机构预测，2024年全球AI服务器有望突破160万台，年增长率达40%，业界对包括AI服务器在内的智能基础设施爆发出强劲的需求。作为全球领先的算力基础设施和服务提供商，联想将依托全栈智能的产品、方案及服务，推动AI技术的持续发展和应用，赋能千行百业加速智能化转型，共同把握AI时代新机遇。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
USB2514B-AEZC	1	Microchip Technology Inc	UNIVERSAL SERIAL BUS CONTROLLER	ECAD模型下载ECAD模型	$2.5	查看
STM32H743ZIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下载ECAD模型	$22.21	查看
MCF5282CVM66	1	Freescale Semiconductor	MCF5282 V2CORE 512KFLASH		$40.57	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

USB2514B-AEZC

Microchip Technology Inc

UNIVERSAL SERIAL BUS CONTROLLER

$2.5

查看

STM32H743ZIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

$22.21

查看

MCF5282CVM66

Freescale Semiconductor

MCF5282 V2CORE 512KFLASH

$40.57

查看

数智QA｜AI服务器必备技能大起底，哪些因素不可或缺？

推荐器件

相关推荐