赛灵思推出其史上最强大FPGA加速器卡，硬刚CPU、GPU

2021国际超算大会(SC21)期间，赛灵思宣布推出一款数据中心加速器卡 Alveo U55C，以及一款基于标准、API-driven 的集群解决方案，用于大规模部署 FPGA。这款加速器卡对赛灵思的特别意义在于：它是赛灵思史上最强大的Alveo加速器卡，专为HPC和大数据工作负载而构建，能够提供 Alveo 加速器产品系列中的最高计算密度和 HBM 容量。突破性的 HPC 集群解决方案与简化的可编程性，支持在现有客户基础架构和网络上实现大规模性能扩展。

赛灵思数据中心事业部高性能计算（HPC）产品经理Nathan Chang在接受与非网采访时表示，高性能计算正面临着百亿亿级（exascale）挑战，主要体现在三方面：第一，随着高性能计算迈向百亿亿级大关，功耗即将成为下一难关。第二，典型的高性能计算架构再难以提供可接受的单位功耗性能，这主要是因为CPU和GPU采用的冯·诺依曼架构存在局限性，数据迁移带来的挑战导致性能下降。为了最大限度提升性能，就必须在函数的转换中准备好数据，而僵化的存储器层级导致效率低下。第三，伴随以上问题，不可避免会浪费时序周期、降低工作效率、增大功耗。

赛灵思数据中心事业部高性能计算（HPC）产品经理 Nathan Chang

他强调，整个工作负载迁移和演变的方向，主要是受到存储器的带宽限制。如果没有办法解决存储器带宽的瓶颈，就没办法利用数据中心的规模。

正因如此，Alveo U55C专为大数据和高性能计算工作负载构建，它能够实现更高的数据流水线并行性、带来优化的存储器管理、优化整个流水线的数据迁移，以及实现出色的单位功耗性能。

赛灵思执行副总裁兼数据中心事业部总经理Salil Raje表示：“我们引入了基于标准的方法，可以支持客户利用现有的基础架构和网络创建 Alveo HPC 集群。借助这一方法，我们正将这些主要优势大规模应用于任意数据中心。这是实现 Alveo 和自适应计算在数据中心更广泛应用的一次重大飞跃。”

专为 HPC 和大数据应用打造

Alveo U55C卡采用单插槽、全高半长（FHHL）外形尺寸，最大功耗低至150W。与前一代双插槽Alveo U280卡相比，Alveo U55C提供了更高的计算密度，还将HBM2容量翻倍至16GB。U55C以更小的外形尺寸提供了更高的算力，有助于创建基于 Alveo 加速器的密集集群。它专为需要性能扩展的高密度流式数据、高 I/O 数学和大型计算问题而开发，例如大数据分析和 AI 应用。

“Alveo U55C非常重要的特性包括：第一就是采用RoCE v2、DCBx、MPI，在现有网络和基础架构上，为数据中心提供了尖端的计算集群；第二，应用开发人员可以利用Vitis平台上已有的一些API、库以及MPI，来扩展工作负载”， Nathan Chang总结。

具体而言，利用现有的开放标准和框架，不论所使用的服务器平台和基础架构如何，都可以将Alveo扩展到数百张卡，利用RoCE v2和数据中心DCBx的桥接，再加上200Gbps的带宽，在网络性能、延迟方面可以跟 InfiniBand抗衡。

MPI集成则可以帮助HPC开发者通过Vitis扩展Alveo数据流水线。通过Vitis，可以抽象出开发机器级代码的需要，比如RTL或Verilog，另外也能够让硬件设计嵌入到整个应用的开发过程中。现在，Vitis已经可以支持更多的高层次编程语言，如C、C++、Python语言等，都开始支持现在主流的AI框架，开发人员还可以通过API和SDK来加速关键工作负载。

HPC三大用例

用于全球最大射电天文望远镜天线阵列信号处理

CSIRO 是澳大利亚的国立研究机构，拥有全球最大的射电天文望远镜天线阵列。在CSIRO用于其平方公里阵列（ Square Kilometer Array ）射电望远镜的信号处理中，使用了Alveo U55C 卡。将 Alveo 卡部署为配备 HBM 的网络附加加速器，能够在整个 HPC 信号处理集群中实现大规模吞吐量。

Nathan Chang解释说，在这个世界上最大的射电天文望远镜天线阵列中，每平方公里有13.1万支天线，规模是21个节点，用了420张U55C卡，每个节点是20张卡，在集群里每秒通过的数据是15Tb。可以看到，要处理和通过的数据量非常庞大，并且还需要处理一些非常复杂的工作负载，比如光线生成模拟器，以及一些成像相关的功能。

据了解，该实验室也曾考虑过用GPU卡做集群搭建，但是需要双插槽GPU卡，要占用两个PCIe接口，同时也需要旁边的插槽来处理相关带宽需求，才能为板卡提供支持，这就需要三个PCIe插槽。相比起来，U55C卡有板载联网功能，使用的是一个插槽。

此外，由于该应用案例中，电源来自于可再生能源，对高性能、低功耗的要求很高。综上，赛灵思Alveo U55C卡成为了理想选择。基于 Alveo 加速器的集群使 CSIRO 能够处理海量计算任务，从 13.1 万根天线中实时聚合、过滤、准备和处理数据。420 张 Alveo U55C 卡通过支持P4语言的100Gbs交换机实现联网，在整个信号处理集群中提供了 460GB/s 的 HBM2带宽。Alveo U55C 集群的处理性能可达15Tb/s的总吞吐量，功耗更低且更具成本效益。据介绍，CSIRO 现正完成一项 Alveo 参考设计，以助力其他射电天文学或相邻产业获得同样的成功。

超并行数据流水线用于碰撞仿真软件

第二个应用案例是对Ansys碰撞仿真软件LS-DYNA进行性能加速。该碰撞仿真软件几乎用于全球所有汽车公司，因为安全性和结构系统的设计往往取决于模型性能，因其能以计算机辅助设计有限元方法（FEM）仿真来降低物理碰撞测试的成本。

Ansys LS-DYNA FEM 求解器是驱动具备数亿个自由度仿真的主要算法，而这些庞大的算法可以细分为更基本的求解器，如 PCG、稀疏矩阵、ICCG。

据Nathan Chang介绍，赛灵思在与LS-DYNA团队的合作过程中发现，他们为了支撑这个仿真求解器，占用了90%的运行时。由于稀疏矩阵计算需要大量数据访问，而现有CPU架构并不是非常理想，因为CPU缓存量很小，且CPU在访问系统内存数据的时候，会浪费一些时间周期，造成CPU核心利用度不高，导致性能下降。

“这个设计过程我们把它叫做‘数据流水线’，对于Alveo开发人员，在设计这个数据流水线的时候，每一个微小数据的调试都是非常重要的——这保证了我们从一个函数到另一个函数，在数据流水线里转移数据的时候，能够保持好动能。同时数据的转移也不会因为读和写的动作而受到限制，因为我们使用的是卡上的存储器”， Nathan Chang解释说，“我们在这些数据流水线中设计了一些微线路，让数据从一个函数到另一个函数做转移，不用再返回原来的函数上，所以我们称之为定制化数据迁移。”

与x86 CPU 相比，利用超并行数据流水线在大量 Alveo卡上进行性能扩展，LS-DYNA 能够实现超过5倍的性能加速。这能在一个 Alveo 流水线中提高单位时钟周期的工作效率，令 LS-DYNA 客户受益于突破性的仿真时间。

为大数据图分析提供加速

TigerGraph是一家图分析平台提供商，使用了多张 Alveo U55C 卡为两种最高效算法进行集群与加速，以驱动基于图的推荐和集群引擎。

Nathan Chang谈到，对于数据科学家而言，图数据库可谓一种颠覆性平台。因为数据孤岛越来越多，图数据库能够将数据从孤岛里提取出来，然后让数据科学家专注于数据之间的关系，而不是看单张图。换句话说，让关系成为数据库第一位重要性的成员。根据Gartner预测，到2025年，大约有80%的数据库会是图数据库。

图从信息孤岛中采集数据并重点关注数据间的关系，图领域的下一个前沿是实时查找答案，因为没有人愿意为了推荐结果而多做等待。Alveo U55C 将推荐引擎的查询和预测时间从数分钟缩短至数毫秒。与基于 CPU 的集群相比，使用多张 U55C 卡扩展分析所提供的出色计算能力和存储器带宽，可将图查询速度提升高达 45 倍。质量评分也提升高达 35%，从而显著提升置信度，将误报几率降至低个位数。

高性能计算领域FPGA加速器卡优势何在？

Nathan Chang表示，就目前在规划中的HPC架构而言，很多都非常专注于某一类型的工作负载，比如在设计、构建、架构方面，都是专门针对比较专用的工作负载。因此不会像过去一样，造非常大的机架，来处理非常高的数据量，现在更多是搭建专属的用例。当然，高性能计算总是需要CPU、GPU的，但是一些非常需要灵活性的专用设备对FPGA加速器卡有很大需求，并且FPGA具有低功耗优势。

根据Nathan Chang分享的一些专门研究HPC的分析师观点，认为加速器业务增长正在势头正猛的关口，不管是业务增长的速度，还是收入的占比，都超过了CPU。

“我们认为，未来会有越来越多的算力部署在专用加速器领域，而不是通用CPU上。这对于整个HPC服务器集群的降功耗目标都是有利的，因为专用加速器的功耗更低”， Nathan Chang补充，“高性能计算领域对于更加多样化且细分的计算平台需求，未来将不断增长。”

根据官方消息，Alveo U55C卡目前已可通过赛灵思官方渠道和授权分销商进行购买，该产品也可通过基于公有云的FaaS（FPGA-as-a-Service，FPGA 即服务）供应商进行简便评估，也可以通过选定的托管数据中心进行专属预览。集群解决方案现已提供专属预览，预计将于明年第二季度全面问世。