备注:此文章来源于MPS官方出品。
人工智能(AI)综合了多种解决问题的方法,例如数学、计算统计、机器学习和预测分析。AI系统通过基于计算机的“神经”网络来模仿人脑学习并解决问题。这种神经网络由并行处理器组成,能够运行复杂的学习任务并执行软件算法。如今的AI还在改革计算架构,以复制模仿人脑的神经网络。尽管在具有传统中央处理器(CPU)的服务器上也可以训练或开发通用模型,但大多数神经网络都需要自定义的内置硬件来进行训练。
图形处理单元(GPU)和张量处理单元(TPU)是用于加速神经网络训练的常见加速器。它们可以处理重复性和密集型计算,但却异常耗电。例如,早期的AI市场主导者英伟达的DGX-1 GPU超级计算机内置8个Tesla P100 GPU,每个GPU算力达到21.2 TeraFLOP,总共需要3200W的系统总功率。最新一代的DGX-2超级计算机则内置16个Tesla V100 GPU,每个GPU算力达2 petaFLOP,所需系统总功率达到10kW。因此,AI市场将迅速增长以满足不断增长的电源需求也就不足为奇了。
电源设计挑战
AI电源系统设计人员面临多方面的挑战。提供千瓦功率是他们的第一个挑战,而且效率绝对至关重要。要知道,这些计算系统是以全功率运行的复杂负载。活跃度下降,功率需求也会随之下降。系统必须在整个电力需求中保持尽可能高的效率。浪费的每一瓦能量都会作为热量消散,并转化为数据中心对散热系统的更高要求,这会增加运营成本以及碳足迹。
空间成本也在不断上升。现代数据中心都包含成百上千个处理单元,因此设备大小非常重要。减小单个单元的尺寸,就可以在与大型解决方案相同的空间中应用更多设备,从而实现更高的处理能力密度。然而,越小的尺寸越要求极大地提高功率密度,并减小散热面积。这使得散热管理成为下一代尖端CPU、GPU和TPU电源设计面临的重大挑战之一。
另外,系统复杂性的增加和设计周期的压缩使设计资源更加紧张。资源大部分被分配给系统关键知识产权的开发,这意味着电源方案相关的电路常常被忽略,直到开发周期的后期。实际上,我们只需很少的时间,并且可能只需很少的电源设计资源就可以解决上述的挑战,得到理想的整体电源解决方案,它将是节省空间的、高效的、可扩展的、灵活的,并且只需要很少的设计工作。
数字控制与模拟控制解决方案
模拟控制解决方案现在已无法应对AI市场中快速增长的电源需求。现在的电源系统更加智能,它被集成到整体解决方案中,与主CPU/GPU/TPU之间的通信也成为一项设计要求。在为AI市场设计高端电源解决方案时,数字控制解决方案将占据主导。
理想的控制解决方案应当兼容多种产品(例如Intel、AMD、PMBus),并且因可扩展且配置灵活而易于使用。包括MPS在内的很多公司都提供了这类理想的高级控制器(参见表1)。它们提供了广泛而准确的系统控制,同时提供详细而精确的监测。电压、电流、频率和故障监测均可在宽范围内进行配置。工程师可以实时访问这些监测值,以全面了解解决方案的性能。有经验的工程师还可以通过预测分析来优化运行时间,并在需要维修时获取更多可用数据,从而最大程度地缩短停机时间。
MPS高级控制器解决方案 | 其他模拟控制器解决方案 | 其他数字控制器解决方案 | |
通信协议 |
|
|
|
最大相位配置 |
|
|
|
封装 | 5mmx5mm QFN封装或更小尺寸 | 7mmx7mm QFN封装或更小尺寸 | 7mmx7mm QFN封装或更小尺寸 |
表1:高级控制器vs.模拟和数字控制解决方案
功率级:集成是关键
显而易见,电源解决方案没有功率级就无法工作,而功率级通常会采用分立式解决方案。 分立式解决方案由驱动器IC和一对外部MOSFET组成,为三芯片解决方案。还有一种方法是将多芯片驱动器-MOSFET(DrMOS)共同封装到一个IC解决方案中。如前所述,不断缩小的系统板面积使三芯片解决方案变得不再理想,因为它增加了有限板空间中的组件数量。共同封装的多芯片解决方案体积更小,所需的组件也更少;不过,其封装内部的寄生电感仍然很高,这会导致效率的损失,对AI等大功率应用而言也不理想。