当前,以ChatGPT为代表的生成式人工智能应用风头无两,正在全球科技巨头间掀起新一轮的技术竞赛。在很多人看来,ChatGPT的上线或可被视作一次新产业革命的引爆点,而这个引爆点之所以能出现,则离不开背后的高性能计算与大数据基础设施。
ChatGPT基于Open AI公司的GPT-3系列语言大模型来实现,GPT(Generative Pre-trained Transformer)即生成式预训练转换模型,是一种基于互联网可用数据训练的文本生成深度学习模型。
为了实现和人类可比拟的语言交互和语言组织能力,GPT-3的参数达到1750亿个,相比之下,2018年推出的GPT-1,参数为1.17亿个,而2019年推出的GPT-2参数则达到15亿个,量变最终将引发质变,参数规模的飞速膨胀,对支撑GPT运行的硬件系统提出了越来越高的要求,对于类似GPT这样的大模型,没有高性能硬件支撑,根本无法去实现与部署,更不要说随着新数据的涌入来迭代了。
所以,在众厂商纷纷宣布加码大模型AI投入时,有人断言,新一轮AI竞赛鹿死谁手还很难说,但高性能计算(HPC)系统中的高算力芯片、高带宽互连芯片和存储芯片一定是赢家。
HPC及其核心芯片发展趋势
那么,高性能计算要如何发展才能更好地支持新一波人工智能发展浪潮?而人工智能将如何影响到高性能计算本身呢?有如下几点,可供探讨。
第一,高性能计算与人工智能相得益彰。人工智能的每一次高速发展,都离不开背后硬件基础设施的支持,而高速发展的AI又对硬件基础设施提出了更高的要求,激励芯片或系统性能成倍上升。
在Open AI 2018年发布的报告中,对自2012至2018年人工智能训练对算力的需求超过30万倍,算力需求平均每3.5个月翻一番,这给芯片及硬件系统更新换代带来极大压力,因为按摩尔定律的性能升级速度,已经不能满足AI训练对芯片性能的需求增长速度了。
为了打破性能瓶颈,新思科技提出了SysMoore开发方法学,通过全系统优化,有效释放了性能提升潜力。
反过来,AI能力也在提升芯片开发效率,帮助开发者设计出性能更出色的芯片。例如,通过应用新思科技的DSO.ai工具,开发者将一款HPC处理器的运行频率提高了100Mz,而开发时间缩短了一半,整个团队的产出效率提升至原来的三倍。
第二,HPC芯片性能提升方式从平面扩展转变为立体增长。多晶片系统(Multi-Die System)正在成为HPC芯片的主要发展潮流,从HPC的系统角度来看,采用先进封装技术将不同芯片封装在一起的方式,比PCB互连能大幅提升系统性能,因而HPC芯片在实现上,2.5D封装与3D封装的设计将越来越多。
而由于成熟的接口IP可以直接以芯粒(Chiplet)方式与计算内核进行拼接,多晶片系统开发方式还可以有效保证良率,加快开发效率。
多晶片系统的实现,需要设计方法学的更新,以实现高带宽、低延迟、低功耗和无差错工作的片间接口,多晶片系统的片间接口技术对于数据中心与边缘设备的快速、可靠的数据传输至关重要。
采用先进封装技术将芯片进行立体堆叠,为芯片性能提升打开了无限可能,但也需要更强的EDA工具、设计方法学和IP,来处理多晶片系统中的异构集成、互连和封装问题。此外,随着数据中心互连技术的发展,开发者还需要具备硅光学等领域的专业知识和技术。
新思科技的3DIC Compiler是一个高效易用的多晶片系统设计实现平台,可以为各种不同工艺制造的芯粒拼接堆叠提供完整的开发环境。
例如,从多晶片系统项目启动时,开发者就需要用3DIC Compiler对多晶片系统进行功能划分,将整体设计分解为多个芯粒,接下来,可以用3DIC Compiler进行早期版图规划和基于封装的信号完整性分析,以实现更好的片间连接性能和更优的功耗表现。
第三,边缘计算设备将不断进步迭代。人工智能的训练发生在数据中心,但推理或数据收集都离不开边缘设备。
在人工智能应用中,对边缘设备的延迟要求越来越高,希望能进一步减少边缘设备数据处理和传输延迟,这就要求优化边缘设备主芯片的数据传输速度和效率。而边缘设备数量众多,因而在芯片层面能够降低功耗的话,将对整个云加边缘体系的节能降耗贡献极大。
所以,边缘端芯片需要强大的仿真和验证工具、功耗和热分析功能、设计布局的智能实施,以及一系列关键功能和接口的认证IP模块,新思科技可以为开发者提供从边缘到云端可应用的基础IP、接口IP、安全IP和处理器IP,优化实现高性能、低延迟和低功耗,同时支持先进的工艺技术。
第四,从信息安全、可靠性和运营成本等考虑,HPC芯片需要全生命周期管理。HPC系统规模巨大,运营成本高昂,可以处理PB乃至ZB级别的数据,可以实时运行大模型。这种级别的系统一旦出现故障,由于业务暂停造成的经济损失,数字会十分惊人。
所以,一个好的HPC系统,应该具备卓越的可靠性、可用性和服务能力,而要做到这一点,系统角度可以通过冗余设计来增加可靠性,但更重要的则是从芯片层级来减少故障率。
在芯片层级减少系统的故障率,就需要用到新思科技的硅生命周期管理(Silicon Lifecycle Management,SLM )的理念。
SLM通过内置IP来收集芯片运行中的各种参数,并将芯片运行数据传输至指定位置进行分析和跟踪,从而让系统可以实时监控各个核心芯片的运行状况,为系统建立起芯片健康状况跟踪图,从而更好地预测和预防故障的发生,最终实现故障率降低和最小化故障损失。
第五,可持续发展是HPC产业长期繁荣的基础。由于规模巨大,HPC系统能耗惊人,专家预测,到2030年,仅数据中心用电量将占到全球总用电量的3%至7%,不少区域甚至抵制建设数据中心,以免因其耗能巨大而导致当地环境恶化。所以,如何有效解决HPC/数据中心能耗和散热问题,已经成为其能否可持续发展的关键。
在新思科技为HPC/数据中心提供的完整解决方案中,处处体现了节能降耗的理念。例如,通过低功耗设计方法学和功耗优化过的IP核来实现HPC芯片的整体功耗优化,从而降低HPC系统能耗,有效降低系统功耗,而新思科技各种高效率开发、仿真和验证工具,大幅降低了研发一款芯片的总体用时和资源占用,则是从更广泛角度上为可持续发展做出的贡献。
总结
随着互联网与人工智能技术的发展,HPC产业的重要性与日俱增,大数据与大数据模型的应用,都对HPC系统的性能与能耗提出了更高要求,只有从芯片层级出发来对HPC系统进行优化,才能真正让HPC系统性能不断升级,能效持续优化,走上真正的可持续发展之路。