践行“数据中心优先”策略，赛灵思再发U50完善Alveo平台

IDC 预测，到 2025 年，全球将有 416 亿台物联网设备，并将产生 79.4 zettabytes（zb）的数据。虽然数据被看作未来的石油，但是同样也需要强大的算力将无序的数据加以提取，形成有用信息，才能给用户带来价值。由于数据在源源不断产生，只凭借 CPU 进行计算已经远远无法满足需求，于是设计人员开始采用异构架构为数据中心加速，FPGA 发挥越来越大的作用。

作为 FPGA 领域的独角兽，赛灵思非常明白自身优势，去年 3 月，新任 CEO Victor peng 宣布公司从器件到平台转型的三大策略，其中非常重要的一项就是数据中心优先策略。去年 10 月，赛灵思推出了 ACAP 系列产品，同时推出了面向数据中心加速的第一款自适应计算加速卡 Alveo 平台，11 月又快速推出了 Alveo 系列 U280 产品，但是赛灵思的愿景是不仅加速计算，同时加速网络和存储，因此近期在原来的基础上又推出了 Alveo U50，将数据中心优先策略再次向前推进。

据赛灵思数据中心业务部产品规划和市场营销总监 Jamon Bowen 介绍，Alveo U50 卡是业界首款支持第四代 PCIe ( PCIe Gen 4)的加速卡，特别为单个可重配置的 FPGA 平台就能大幅加速各种不同的关键计算、网络和存储工作负载而设计。相对 U280 擅长计算，U50 在计算方面较弱，在网络和存储方面更强。

三大亮点：小尺寸、低功耗、可编程

Alveo U50 具有三大特点：小尺寸、低功耗、可编程。

由于采用 UltraScale+的架构，集成了超高带宽的 HBM2 存储器技术，率先使用半高半长的外形，Alveo U50 尺寸大幅度缩小；通过支持标准的 PCIe 服务器插槽和仅相当于现有 Alveo 卡 1/3 的功耗，Alveo U50 大幅扩展了自适应加速技术可以部署的范围，从而为要求严苛的计算、网络与存储工作负载带来了前所未有的高吞吐量与低延时。8GB HBM2 提供了超过 400Gbps 的数据传输速度, QSFP 端口提供了高达 100 Gbps 的网络连接。此外，高速网络 I/O 还支持各种前沿应用，如 NVMe-oF™解决方案（NVM Express over Fabrics™），解耦计算存储和专业金融服务应用。

Jamon Bowen 强调，U50 采用的是第四代 PCIe 即插即用型卡，这是市面上最前沿的技术，很多服务器刚刚开始支持这一标准，这种卡对于存储加速非常关键。

U50 的重点是计算、网络和存储加速。Jamon Bowen 对这一定位的解释是，现在的总体趋势是越来越多的应用需要专用架构，要求硬件和算法能够匹配，从而达到最佳运行效果。每一代网络都不尽相同，而且网络上的数据也不同，数据运行的要求也不尽相同。这就需要硬件能够跟上专用架构的要求，同时还要提升性能，硬件能够发挥它最优的功能。

在数据中心客户经常抱怨器件编程非常困难，Alveo 具有开放的平台和环境，简化了硬件编程的程序，能够通过公共平台进行加速，让开发者便捷地使用这一平台。Jamon Bowen 解释，随着越来越多开发者使用该平台，我们会加入更多产品，实现原来只有在软件部分才有可能的硬件 IP 的灵活应变能力。解决包括数据分析、视频与图象处理、机器学习、生命科学和金融计算等领域地问题。

对比 CPU、GPU，性能大幅度提升

加速器性能到底提升多少？对比一下就会一目了然。赛灵思官方和 CPU 以及 GPU 进行了对比。

语音翻译应用加速

在语音翻译应用中，CPU 和 GPU 无法实现高吞吐量与低时延推断性能，可以看出 Alveo U50 是英伟达 GPU T4 地 10 倍。

数据分析加速应用

在数据分析应用中，数据库查询加速运行 TPC-H Query5 体系，对比英特尔的多核处理器 XEON 系列，加入 Alveo U50 的运行速度提升 4 倍，而且其尺寸较小可以加入多张卡，进行多倍加速。

金融建模应用

对比英特尔的 CPU 和英伟达的 GPU，可以看出，一块 Alveo U50 性能是对应 CPU 和 GPU 的 20 倍，值得强调的是成本只有 GPU 的一半。Jamon Bowen 解释，我们一直在开发计算库，尤其是量化的开发者能够在 Alveo 当中使用这些数据函数进行最优化的编码，同时能够在我们这个平台上完成其他的应用设计，建立这样一个模型。这个对于计算加速来说是非常重要的扩展，尤其能够把所有的数学函数都吸收进来。

电子贸易业务

金融界有一个从技术到交易的衡量指标，就是看你获得市场数据之后下单完成交易之间需要多长时间。如果用户使用 U50，时延低于 500 纳秒，且性能稳定。相对于 CPU，U50 的性能在时间上是 CPU 的 20 倍。Jamon Bowen 认为，使用 Alveo 进行加速，能够在很多网络端口完成应用的加速，而所需的时间往往是 CPU 刚刚开始进行对话的时间。

计算存储应用

在计算存储应用中，过去字节都传输到内存才能压缩、解压缩等处理，流程非常复杂，采用 Alveo U50 平台，压缩、解压缩、擦除编码、加密都在同一个平台上继续宁加速，是 CPU 性能的 20 倍。

再看 Hadoop 加速应用，如果要做高性能的计算，数据无法压缩，基础设施需要扩大一倍，而且还需要更多的存储带宽。如果采用 U50 既可以保留带宽也可以进行压缩，而且存储空间和带宽只需要原来的一半。因此部署成本只有原来的一半，在压缩的同时性能不会受到损失。

对比两个双 CPU 的服务器和搭载两个 Alveo U50 的 Alveo 服务器，可以看出，前者 192TB，每个节点压缩吞吐量 1GB/s，后者 96TB（192TB 有效），每个节点压缩吞吐量 20GB/s。

为什么赛灵思的硬件运行速度改善如此之大？Jamon Bowen 的解释是，要优化性能，要有定制的数据途径，还要有定制的进度。具备这两个条件后，应用才能够非常顺利的进行处理，而无需不断地进到一些存储的层级，经过非常复杂的流程就能直接处理。赛灵思在这方面能够给硬件加速，可以通过再编程的方式来调整一些设置。

异构计算是数据中心的未来，很多公司在拥抱加速架构为核心的解决方案，U50 不仅能够提供硬件加速，而且还具有灵活应变的特性。Jamon Bowen 认为，压缩技术日新月异，有 ZS、ZT、LZ，还有超大规模客户发布一些新的压缩算法。我们能够在硬件层面上进行加速，还能够在硬件层面上实现可编程。一旦有了新的标准计算算法迭代之后，赛灵思就能够充分利用 FPGA 的灵活性，在我们平台上迅速部署，其它竞争对手很难做到。

与非网原创内容，未经允许，不得转载！

践行“数据中心优先”策略，赛灵思再发U50完善Alveo平台

相关推荐