老猫内参3：搭建高性能仿真平台

1.概述

高性能计算（High Performance Computing，简称HPC）是计算机科学的一个分支，研究并行算法和开发相关软件，致力于开发高性能计算机（High Performance Computer），满足科学计算、工程计算、海量数据处理等需要。自从1946年设计用于导弹弹道计算的世界上第一台现代计算机诞生开始，计算技术应用领域不断扩大，各应用领域对计算机的处理能力需求越来越高，这也促使了高性能计算机和高性能计算技术不断向前发展。随着信息化社会的飞速发展，人类对信息处理能力的要求越来越高，不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算机，而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求也迅猛增长。应用需求是高性能计算技术发展的根本动力。传统的高性能计算应用领域包括：量子化学、分子模拟、气象预报、天气研究、油气勘探、流体力学、结构力学、核反应等。随着经济发展和社会进步，科学研究、经济建设、国防安全等领域对高性能计算设施及环境提出了越来越高的需求，不仅高性能计算的应用需求急剧增大，而且应用范围从传统领域不断扩大到资源环境、航空航天、新材料、新能源、医疗卫生、金融、文化产业等经济和社会发展的众多领域。

图 1 全球HPC TOP500统计数据显示高性能计算能力成倍增长解决上述关系国家战略和国计民生的重大挑战性问题都离不开高性能计算的强力支撑，可以预见在战略层面，各国对高性能计算的投入会持续增长，而中国将更加发力；在技术层面上，高性能计算的应用范围将越来越广，发过来应用需求也将催生高性能计算新技术的诞生与发展。

2.搭建原则

计算平台建设要充分考虑未来的发展需求，包括多项目、多任务并行协同，远程任务提交与监控等。高性能仿真平台的建设总体原则是立足眼前、面向未来，仿真平台不仅要能够完全满足目前我部门的设计需要，还要具有前瞻性和可扩展性，满足未来至少5年的应用需求。

能够适应复杂的计算需求

由于高性能计算中心需求复杂，需要满足各种应用需求。对于天线阵列与天线罩的仿真与建模，需要采用高性能的图形工作站；对于常规的计算密集型应用，往往适合大规模的多节点并行，使用常规的刀片集群来满足；对于无法进行多节点跨节点并行的多线程应用，对内存、IO需求的较为强烈，SMP胖节点可以提供单节点更强的性能，更高的内存和IO扩展性需求，和广泛的外插卡扩展性，一般配置SMP 胖节点来满足应用需求。

采用高速互联网络

大规模并行计算在计算过程中对网络有较大的需求，高带宽和低延时的InfiniBand网络会带来应用性能和扩展性的大幅提升，尤其随着CPU多核化的快速发展，单节点的计算性能越来越强，带来节点间通讯的压力越来越大，InfiniBand网络几乎成为许多高性能计算应用的标配。同时，高性能集群对共享文件系统的需求也要求数据通过网络来对集中存储进行访问，高带宽的InfiniBand网络也会带来数据访问性能的快速增长。文件系统并行和权限分级高性能计算中心应用计算能力强、应用数量多，除了一部分高IO应用会给共享文件系统带来较大压力，同时，海量任务的并发读写也会带给文件系统的较大负载。同时，海量的数据和高性能集群统一文件映像的需求，也要求高性能计算中心有一个海量的单一文件分区。需要采用并行文件系统，并行文件系统通过软件的方式能够实现多个存储空间的单一分区和并发读写，突破硬件资源设计的瓶颈，带来灵活的扩展性和性能的大幅提升。同时，面对不同的用户的权限要求，需要分出几个层次，用户享有的数据安全性程度也有不同。同时，不同应用的文件访问类型也有明显不同，有的是大文件为主，有的是小文件，但是数量巨大。所以在方案设计中，最好使用分层次的分级存储。

配置管理调度系统

由于高性能计算中心用户数量多，权限有一定差异，离散度高，带来管理的难度加大。同时，由于计算中心的运维方主要给用户提供服务，所以对用户的使用权限、记帐、管理等方面要求比较高。所以高性能计算中心对管理软件和调度软件的要求较高，一般除了普通的调度功能外，还要可以实现灵活的策略分配和权限分配，作业记帐、用户抢占，限制用户登入、报警、系统快速恢复等等功能。同时，还要制定一定的规章制度，来规范用户对资源的申请、使用和分配。

低能耗要求

由于高性能计算中心规模大，所以电费开支是一项不小的开销。一般一年的电量达到上万甚至数十万千瓦时，所以节能环保不但能实现设备的绿色低碳，同时也能大大降低运维费用。考虑到节能需求，方案中采用刀片服务器、低功耗处理器、节能软件、高制冷效率基础设施(水冷机组或封闭式制冷机柜)等方式实现绿色节能。

能实现远程操作与监控

传统的HPC应用软件有一定的使用难度，尤其Linux操作系统和作业提交脚本，对于大部分习惯windows的用户来说，成为摆在面前的一个技术壁垒。同时，常规的用户通过SSH 远程登录的使用模式，使得用户有很多权限可以顺利登陆到高性能集群上进行各种操作，也带来了巨大的安全隐患。定制化的、针对应用软件的Web Portal可以很好的解决这些问题。Web Portal可以大大降低应用软件使用难度，保证系统安全性，更好的为用户提供高性能计算服务。

高数据安全性

在高性能集群上的用户数据众多，数据安全非常重要，数据安全主要包含两方面的内容第一方面，可能遭到网络黑客的远程攻击，或者其它用户的窃取，或者由于用户名密码的丢失被窃取。解决方法可以是使用防火墙、加密文件系统、以及加密认证登陆系统来进行安全防护（如堡垒机等）。第二方面，指的是由于设备故障或地震、火灾等因素造成的数据丢失。解决方法可以使用数据备份等方式来解决。

3.高性能仿真平台

高性能仿真平台包含两大部分：软件系统和硬件系统。根据模型计算量首选确定仿真软件的配置规模，进一步牵引出硬件的合理搭配环境。

3.1. 软件系统

为完成高性能计算，软件系统从两方面来解决超大计算量问题：1.多种混合算法实现电大尺寸问题的精确求解2.采用高性能计算（HPC）扩展求解规模

3.1.1.多种混合算法实现电大尺寸问题的精确求解

在HFSS的多种算法中，有限元法（FEM）擅长处理复杂结构和介质材料，矩量法（MoM）则擅长求解纯金属电大尺寸的开放空间问题，而PO光学法可以快速评估大尺寸模型的性能与结果，SBR弹跳射线法作为一种高效高精度的光学算法，适用于金属材料的大尺寸快速求解，并作为混合算法的其中一项，主要针对天线类布局与RCS计算等。例如，天线与天线罩装配到飞机上之后是典型的大尺寸且复杂的问题。在ANSYS软件中，HFSS（有限元法模块）和HFSS-IE（积分方程法模块），PO光学法模块（包含于IE模块内部），即三维矩量法）实现了完美融合，可通过FEBI边界和IE Region、PO Region技术将几种算法应用到一个模型的求解中，结合了各种算法的优点，非常适合电大尺寸问题的精确求解以及快速评估。1）可以将边界（FEBI边界）设置的离目标更近，减小求解网格量；

图2 天线罩与天线的的混合算法示意图——FEBI边界的应用2）可以是凹形的，容易实现与任意形状复杂结构共形；3）模型可以分离，用于仿真模型分离的情况；

图3 天线罩与天线的的混合算法示意图——模型的分离

3.1.2.采用高性能计算（HPC）扩展求解规模

ANSYS软件中高性能计算（HPC）选项采用了区域分解（DDM）技术，可以突破单节点硬件的限制，实现高性能并行计算，扩展求解规模。

图4a

图4b

图5 HPC与DDM加速比、内存占用与子域个数的关系曲线DDM技术通过利用局域网内计算机的所有内存对大规模问题进行仿真。HFSS会根据网格规模和用于计算的处理器核/计算机数目将待求解问题的划分子域数目进行优化；DDM算法会自动将有限元网格按上述优化的结果分解成若干子域。每个子域会单独进行分析，然后通过在子域间的交接面上的迭代重构出整个域的解。这种网络内存共享机制可对超出单机计算规模的大型问题进行仿真。

此外，DDM技术还可降低仿真时间和总内存需求，在某些问题上随着参与计算的核数的增加可提供超线性的加速比。由于HFSS仿真所需的求解时间和内存随求解未知量增长的关系大约满足N1.4（N为未知量数目）。采用8核的计算机进行求解时，去除一个核作为头节点，可将待求解模型分为7个子域，因此，求解速度可以提升约71.4（15倍）。如下图显示了采用DDM求解F-35上的机载天线时的加速比和内存占用随求解核数（求解核数＝子域数目+1）增加的规律，在此问题上，DDM呈现出了超线性加速比特性。HPC高效并行算法，是一种结合了MPI技术的并行算法。消息传递MPI是目前使用最为广泛的实现并行计算的一种方式.在消息传递模型中，计算由一个或者多个进程构成，进程间的通信通过调用库函数发送和接收消息来完成.通信是一种协同的行为。HPC结合DDM，可以实现大规模问题的高效并行求解。最新的HPC模块增加了频谱分解（SDDM）功能，可自动将宽带扫频的各个频点分配到多个处理器或计算机求解，并自动生成扫频结果。该方法极大减少了获取宽带频域求解的总仿真时间。

图6 HPC 区域分解示意图最新的HPC模块增加了频谱分解（SDDM）功能，支持离功扫频与插值扫频。可自动将宽带扫频的各个频点分配到多个处理器或计算机求解，并自动生成扫频结果，极大减少了获取宽带频域求解的总仿真时间。

图7 频谱分解技术——并行的扫频方式分布式求解DSO技术，与OPT模块结合，可支持多参数的分布式扫描与计算，将设计参数分配到多个处理器或计算机求解，加速设计参数扫描进程。

图 8 分布式参扫技术——并行的参数扫描与加速2017版本以后，HFSS软件增加了GPU加速的功能，可加速频域FEM有限元的直接法求解与时域有限元模块的求解。GPU加速功能的加入，并不会增加License的购买成本，而是免费提供。例如，客户购买了一个8核的HPC，可调用一块GPU显示。如果购买更多的HPC，则每8个CPU，可搭配一个GPU使用。

图 9 介质谐振天线的频域FEM求解

图 10 探地雷达与连接器等的时域有限元求解

3.2.硬件系统

依据大规模电磁计算软件的特点，采用普通刀片节点和胖刀片节点结合的集群方案，集群计算系统共可实现2240核CPU、12TB内存资源总和，整体双精度浮点计算理论峰值性能达到75万亿次每秒。

配置双路胖刀片计算节点10台（每台512GB内存）, CPU采用Intel E5 V4系列，CPU总核心数达到560，总内存数达到5TB，双精度浮点计算峰值性能达到10.7万亿次每秒。该配置的刀片主要适用于内存空间开销非常大的电磁计算，并行前处理或DMP方式并行计算的问题的仿真计算。配置高性能图形工作站10台，用于仿真计算过程的建模与前处理等对图形要求较高的工作，并且可以用于小规模问题的计算，提高高性能计算的灵活性。集群存储采用分布式并行存储系统，裸容量200TB，提供集群软件的基本共享存储空间，及所有用户数据的统一集中存储和管理（各用户的算例数据可共享也可私有）。集群配置管理/登录节点2台。集群满载总功耗峰值按照集群配置核算，机房配电、冷却、及电费与此密切相关。计算及存储网络采用100Gb/s EDR InfiniBand（为当前业界带宽最大且速度最快网络），采用模块化InfiniBand交换机，实现系统全线速交换。提供完备的集群系统软件，包括：节点Linux操作系统；供应商集群操作系统应提供系统监控、管理、告警、统计、作业调度等功能和组件；OpenMP及MPI并行开发环境，GPU开发环境，以及其它相关的HPC开发运行环境。作业提交和管理软件。实现所有日常计算作业的提交和作业管理，以及满足某些不了解Linux的Windows用户，在无需另外学习了解Linux的情况下，能有效便捷地使用Linux高性能计算集群。

配置双路普通刀片计算节点60台（每台128GB内存）, CPU采用Intel E5 V4系列，CPU总核心数达到1680，总内存数达到7TB，双精度浮点计算峰值性能达到64.5万亿次每秒。该配置的刀片主要适用于，绝大多数常规CAE流体、结构、电磁等问题的仿真计算。

4.系统构成

4.1.系统拓扑结构

图11 高性能计算系统拓扑结构图

4.2.计算系统

高性能计算应用最为核心的需求仍然是计算能力，高性能计算机峰值计算能力代表着高性能计算机的整体处理能力，而对于大部分的高性能计算应用，对计算资源的海量需求仍然是最为迫切和直接的需求。在高性能计算过程中，会进行大量的内存访问，对内存的容量和访问速度都有很高的需求。尤其随着CPU多核化的快速发展，对内存的访问能力提出了新的需求，同时，随着CPU的不断升级，内存通道的数量及内存的频率也在不断升级。从应用需求出发，高性能计算机的部件及架构要适合具体的高性能计算应用。我们目前关注的电大尺寸复杂天线罩的结构和电磁计算，需要大内存、共享存储扩展等需求，因此系统需要配置大内存及多路胖节点，并考虑总体计算峰值。考虑到上述要求，本集群系统整体双精度峰值达到75万亿次。共配置70片刀片服务器，配置双路普通刀片计算节点60台（128GB DDR4内存），配置双路胖刀片计算节点10台（512GB DDR4内存），这70片刀片安装在高性能刀箱中。每个刀片服务器配置2颗14核Intel Xeon E5-2680 v4处理器，主频2.4GHz。这样的配置可以满足我们未来五年的计算需求，实现大型电磁仿真计算。

4.3. 存储系统

高性能计算集群在多个节点进行大规模并行计算的同时，需要进行大量文件及数据访问，对于系统的存储性能也提出非常高的要求。为保证参与计算的所有节点具有统一的文件映象，需要通过网络文件系统来实现，由于集群规模的增大和访问性能的要求逐渐提高，并行文件系统在中大规模的高性能集群中使用越来越广泛。对于某些规模较大集群，或者某些高IO应用集群，由于对存储的访问量很大，对共享存储的访问性能也提出了较高要求，可以通过并行存储系统来实现海量文件的并发读写。并且集群集中存储的容量要求能够适应我单位的应用要求。高性能集群承担着重要的科研任务，存储的数据具有极高的价值，同时，存储为全局系统，一旦出现故障，将导致整个系统不可用。所以在存储系统中，无论IO节点、存储交换机、还是存储磁盘阵列，存储介质，每个环节都要尽可能的保证高可靠性和高可用性。可以通过冗余电源、高级别RAID、双机热备、数据备份等各种手段保证存储系统的高可靠性。本方案采用1套分布式并行存储系统，作为集群共享存储系统，总容量达到200TB，并且具有可扩展性，满足我单位未来五年的仿真设计要求。

4.4.网络系统

4.4.1.管理网络

本项目核心层采用一台48端口千兆交换机。管理节点、登录节点、刀片计算节点，采用千兆以太网络直接连入千兆交换机，该方案在保证管理网络性能的同时，为系统的扩充也预留了一定空间。

4.4.2.EDR InfiniBand计算/存储网络

以MPI为代表的并行高性能计算程序，在多节点并行运行时有频繁大量的网络数据通信，计算网络的性能对并行程序的计算性能、并行加速比以及可扩展性有决定性的影响。这主要反映在两方面。如果并行计算程序的数据通信以小数据包为主，且数据交换非常频繁，这一类并行程序对计算网络的延迟性能非常敏感，计算网络的延迟越低，程序的并行性能越好；如果并行计算程序数据通信大数据包较多，则对计算网络的带宽性能敏感，计算网络的带宽越高，程序的并行性能越好。实际情况中，大部分并行应用程序对计算网络的带宽和延迟性能都非常依赖，低延迟、高带宽的计算网络是大规模并行计算必不可少的要素。另一方面，目前大规模高性能计算集群均采用分布式并行存储架构，集群的规模越大，或者应用程序对存储I/O性能要求越高，则对并行存储系统的存储网络性能要求越高，要求存储网络具有低延迟、高带宽的特性。因此，本系统方案采用目前业界最高性能的100Gb/s InfiniBandEDR高速网络，用作并行计算程序的计算网络以及并行存储系统的存储网络。系统配置1台108端口模块化EDR InfiniBand交换机实现全线速交换。

4.5.管理服务节点

管理节点主要用于运行集群监控管理软件license、用户信息管理服务、InfiniBand子网管理服务、作业调度服务、时间同步服务等集群系统服务。这些关键系统服务均配置为互备冗余模式，保障整个集群系统的高可用性。管理节点硬件本身也配置有冗余电源、本地硬盘RAID保护等可靠性保障措施。登录节点主要用于用户程序编译、算例准备，文件上传下载，作业提交控制等用户交互操作。登陆节点CPU与计算节点架构相同，保障用户编译程序的执行效率。登陆节点也可配置CPU、MIC和GPU等开发环境，方便用户进行相关程序的开发调试。管理和登陆节点采用千兆直接接入集群管理网络，可通过独立硬件负载均衡设备，实现用户接入的动态负载均衡和高可用。

4.6.高性能图形工作站

为符合工程仿真设计的应用场景及要求，包括多人多任务操作、前后处理要求具有较好的图形显示功能、小规模问题计算等，此次平台建设选择多台高性能图形工作站配合刀片集群配合使用的方案。图形工作站有出色的图形处理能力，搭配工程师更为熟悉的Windows操作系统，非常适合仿真设计中的前后处理等对图形处理要求比较高的工作，尤其在对复杂天线罩建模的过程中，需要高性能的GPU支持才能有较好的设计体验。

5.后注

高性能计算中心的配置属于大型投资，需要应用方和供应商深度协作，达成符合应用方需求的最佳配置和使用方式，这里只是将其搭建的各个方面简单展现，且高性能计算市场风起云涌，变幻莫测，这里的信息以及是几年前的建议，不具有实际操作价值，勿照搬本文所列配置。