AI革命时代的HPC系统及芯片发展五大趋势

当前，以ChatGPT为代表的生成式人工智能应用风头无两，正在全球科技巨头间掀起新一轮的技术竞赛。在很多人看来，ChatGPT的上线或可被视作一次新产业革命的引爆点，而这个引爆点之所以能出现，则离不开背后的高性能计算与大数据基础设施。

ChatGPT基于Open AI公司的GPT-3系列语言大模型来实现，GPT（Generative Pre-trained Transformer）即生成式预训练转换模型，是一种基于互联网可用数据训练的文本生成深度学习模型。

为了实现和人类可比拟的语言交互和语言组织能力，GPT-3的参数达到1750亿个，相比之下，2018年推出的GPT-1，参数为1.17亿个，而2019年推出的GPT-2参数则达到15亿个，量变最终将引发质变，参数规模的飞速膨胀，对支撑GPT运行的硬件系统提出了越来越高的要求，对于类似GPT这样的大模型，没有高性能硬件支撑，根本无法去实现与部署，更不要说随着新数据的涌入来迭代了。

所以，在众厂商纷纷宣布加码大模型AI投入时，有人断言，新一轮AI竞赛鹿死谁手还很难说，但高性能计算（HPC）系统中的高算力芯片、高带宽互连芯片和存储芯片一定是赢家。

HPC及其核心芯片发展趋势

那么，高性能计算要如何发展才能更好地支持新一波人工智能发展浪潮？而人工智能将如何影响到高性能计算本身呢？有如下几点，可供探讨。

第一，高性能计算与人工智能相得益彰。人工智能的每一次高速发展，都离不开背后硬件基础设施的支持，而高速发展的AI又对硬件基础设施提出了更高的要求，激励芯片或系统性能成倍上升。

在Open AI 2018年发布的报告中，对自2012至2018年人工智能训练对算力的需求超过30万倍，算力需求平均每3.5个月翻一番，这给芯片及硬件系统更新换代带来极大压力，因为按摩尔定律的性能升级速度，已经不能满足AI训练对芯片性能的需求增长速度了。

为了打破性能瓶颈，新思科技提出了SysMoore开发方法学，通过全系统优化，有效释放了性能提升潜力。

反过来，AI能力也在提升芯片开发效率，帮助开发者设计出性能更出色的芯片。例如，通过应用新思科技的DSO.ai工具，开发者将一款HPC处理器的运行频率提高了100Mz，而开发时间缩短了一半，整个团队的产出效率提升至原来的三倍。

第二，HPC芯片性能提升方式从平面扩展转变为立体增长。多晶片系统（Multi-Die System）正在成为HPC芯片的主要发展潮流，从HPC的系统角度来看，采用先进封装技术将不同芯片封装在一起的方式，比PCB互连能大幅提升系统性能，因而HPC芯片在实现上，2.5D封装与3D封装的设计将越来越多。

而由于成熟的接口IP可以直接以芯粒（Chiplet）方式与计算内核进行拼接，多晶片系统开发方式还可以有效保证良率，加快开发效率。

多晶片系统的实现，需要设计方法学的更新，以实现高带宽、低延迟、低功耗和无差错工作的片间接口，多晶片系统的片间接口技术对于数据中心与边缘设备的快速、可靠的数据传输至关重要。

采用先进封装技术将芯片进行立体堆叠，为芯片性能提升打开了无限可能，但也需要更强的EDA工具、设计方法学和IP，来处理多晶片系统中的异构集成、互连和封装问题。此外，随着数据中心互连技术的发展，开发者还需要具备硅光学等领域的专业知识和技术。

新思科技的3DIC Compiler是一个高效易用的多晶片系统设计实现平台，可以为各种不同工艺制造的芯粒拼接堆叠提供完整的开发环境。

例如，从多晶片系统项目启动时，开发者就需要用3DIC Compiler对多晶片系统进行功能划分，将整体设计分解为多个芯粒，接下来，可以用3DIC Compiler进行早期版图规划和基于封装的信号完整性分析，以实现更好的片间连接性能和更优的功耗表现。

第三，边缘计算设备将不断进步迭代。人工智能的训练发生在数据中心，但推理或数据收集都离不开边缘设备。

在人工智能应用中，对边缘设备的延迟要求越来越高，希望能进一步减少边缘设备数据处理和传输延迟，这就要求优化边缘设备主芯片的数据传输速度和效率。而边缘设备数量众多，因而在芯片层面能够降低功耗的话，将对整个云加边缘体系的节能降耗贡献极大。

所以，边缘端芯片需要强大的仿真和验证工具、功耗和热分析功能、设计布局的智能实施，以及一系列关键功能和接口的认证IP模块，新思科技可以为开发者提供从边缘到云端可应用的基础IP、接口IP、安全IP和处理器IP，优化实现高性能、低延迟和低功耗，同时支持先进的工艺技术。

第四，从信息安全、可靠性和运营成本等考虑，HPC芯片需要全生命周期管理。HPC系统规模巨大，运营成本高昂，可以处理PB乃至ZB级别的数据，可以实时运行大模型。这种级别的系统一旦出现故障，由于业务暂停造成的经济损失，数字会十分惊人。

所以，一个好的HPC系统，应该具备卓越的可靠性、可用性和服务能力，而要做到这一点，系统角度可以通过冗余设计来增加可靠性，但更重要的则是从芯片层级来减少故障率。

在芯片层级减少系统的故障率，就需要用到新思科技的硅生命周期管理（Silicon Lifecycle Management，SLM ）的理念。

SLM通过内置IP来收集芯片运行中的各种参数，并将芯片运行数据传输至指定位置进行分析和跟踪，从而让系统可以实时监控各个核心芯片的运行状况，为系统建立起芯片健康状况跟踪图，从而更好地预测和预防故障的发生，最终实现故障率降低和最小化故障损失。

第五，可持续发展是HPC产业长期繁荣的基础。由于规模巨大，HPC系统能耗惊人，专家预测，到2030年，仅数据中心用电量将占到全球总用电量的3%至7%，不少区域甚至抵制建设数据中心，以免因其耗能巨大而导致当地环境恶化。所以，如何有效解决HPC/数据中心能耗和散热问题，已经成为其能否可持续发展的关键。

在新思科技为HPC/数据中心提供的完整解决方案中，处处体现了节能降耗的理念。例如，通过低功耗设计方法学和功耗优化过的IP核来实现HPC芯片的整体功耗优化，从而降低HPC系统能耗，有效降低系统功耗，而新思科技各种高效率开发、仿真和验证工具，大幅降低了研发一款芯片的总体用时和资源占用，则是从更广泛角度上为可持续发展做出的贡献。

总结

随着互联网与人工智能技术的发展，HPC产业的重要性与日俱增，大数据与大数据模型的应用，都对HPC系统的性能与能耗提出了更高要求，只有从芯片层级出发来对HPC系统进行优化，才能真正让HPC系统性能不断升级，能效持续优化，走上真正的可持续发展之路。

AI革命时代的HPC系统及芯片发展五大趋势

HPC及其核心芯片发展趋势

总结

相关推荐