IDC 预测,到 2025 年,全球将有 416 亿台物联网设备,并将产生 79.4 zettabytes(zb)的数据。虽然数据被看作未来的石油,但是同样也需要强大的算力将无序的数据加以提取,形成有用信息,才能给用户带来价值。由于数据在源源不断产生,只凭借 CPU 进行计算已经远远无法满足需求,于是设计人员开始采用异构架构为数据中心加速,FPGA 发挥越来越大的作用。
作为 FPGA 领域的独角兽,赛灵思非常明白自身优势,去年 3 月,新任 CEO Victor peng 宣布公司从器件到平台转型的三大策略,其中非常重要的一项就是数据中心优先策略。去年 10 月,赛灵思推出了 ACAP 系列产品,同时推出了面向数据中心加速的第一款自适应计算加速卡 Alveo 平台,11 月又快速推出了 Alveo 系列 U280 产品,但是赛灵思的愿景是不仅加速计算,同时加速网络和存储,因此近期在原来的基础上又推出了 Alveo U50,将数据中心优先策略再次向前推进。
据赛灵思数据中心业务部产品规划和市场营销总监 Jamon Bowen 介绍,Alveo U50 卡是业界首款支持第四代 PCIe ( PCIe Gen 4)的加速卡 ,特别为单个可重配置的 FPGA 平台就能大幅加速各种不同的关键计算、网络和存储工作负载而设计。相对 U280 擅长计算,U50 在计算方面较弱,在网络和存储方面更强。
Alveo U50 具有三大特点:小尺寸、低功耗、可编程。
由于采用 UltraScale+的架构,集成了超高带宽的 HBM2 存储器技术,率先使用半高半长的外形,Alveo U50 尺寸大幅度缩小;通过支持标准的 PCIe 服务器插槽和仅相当于现有 Alveo 卡 1/3 的功耗,Alveo U50 大幅扩展了自适应加速技术可以部署的范围,从而为要求严苛的计算、网络与存储工作负载带来了前所未有的高吞吐量与低延时。8GB HBM2 提供了超过 400Gbps 的数据传输速度, QSFP 端口提供了高达 100 Gbps 的网络连接。此外,高速网络 I/O 还支持各种前沿应用,如 NVMe-oF™解决方案(NVM Express over Fabrics™),解耦计算存储和专业金融服务应用。
Jamon Bowen 强调,U50 采用的是第四代 PCIe 即插即用型卡,这是市面上最前沿的技术,很多服务器刚刚开始支持这一标准,这种卡对于存储加速非常关键。
U50 的重点是计算、网络和存储加速。Jamon Bowen 对这一定位的解释是,现在的总体趋势是越来越多的应用需要专用架构,要求硬件和算法能够匹配,从而达到最佳运行效果。每一代网络都不尽相同,而且网络上的数据也不同,数据运行的要求也不尽相同。这就需要硬件能够跟上专用架构的要求,同时还要提升性能,硬件能够发挥它最优的功能。
在数据中心客户经常抱怨器件编程非常困难,Alveo 具有开放的平台和环境,简化了硬件编程的程序,能够通过公共平台进行加速,让开发者便捷地使用这一平台。Jamon Bowen 解释,随着越来越多开发者使用该平台,我们会加入更多产品,实现原来只有在软件部分才有可能的硬件 IP 的灵活应变能力。解决包括数据分析、视频与图象处理、机器学习、生命科学和金融计算等领域地问题。
对比 CPU、GPU,性能大幅度提升
加速器性能到底提升多少?对比一下就会一目了然。赛灵思官方和 CPU 以及 GPU 进行了对比。
语音翻译应用加速
在语音翻译应用中,CPU 和 GPU 无法实现高吞吐量与低时延推断性能,可以看出 Alveo U50 是英伟达 GPU T4 地 10 倍。
数据分析加速应用
在数据分析应用中,数据库查询加速运行 TPC-H Query5 体系,对比英特尔的多核处理器 XEON 系列,加入 Alveo U50 的运行速度提升 4 倍,而且其尺寸较小可以加入多张卡,进行多倍加速。
金融建模应用
对比英特尔的 CPU 和英伟达的 GPU,可以看出,一块 Alveo U50 性能是对应 CPU 和 GPU 的 20 倍,值得强调的是成本只有 GPU 的一半。Jamon Bowen 解释,我们一直在开发计算库,尤其是量化的开发者能够在 Alveo 当中使用这些数据函数进行最优化的编码,同时能够在我们这个平台上完成其他的应用设计,建立这样一个模型。这个对于计算加速来说是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。
电子贸易业务
金融界有一个从技术到交易的衡量指标,就是看你获得市场数据之后下单完成交易之间需要多长时间。如果用户使用 U50,时延低于 500 纳秒,且性能稳定。相对于 CPU,U50 的性能在时间上是 CPU 的 20 倍。Jamon Bowen 认为,使用 Alveo 进行加速,能够在很多网络端口完成应用的加速,而所需的时间往往是 CPU 刚刚开始进行对话的时间。
计算存储应用
在计算存储应用中,过去字节都传输到内存才能压缩、解压缩等处理,流程非常复杂,采用 Alveo U50 平台,压缩、解压缩、擦除编码、加密都在同一个平台上继续宁加速,是 CPU 性能的 20 倍。
再看 Hadoop 加速应用,如果要做高性能的计算,数据无法压缩,基础设施需要扩大一倍,而且还需要更多的存储带宽。如果采用 U50 既可以保留带宽也可以进行压缩,而且存储空间和带宽只需要原来的一半。因此部署成本只有原来的一半,在压缩的同时性能不会受到损失。
对比两个双 CPU 的服务器和搭载两个 Alveo U50 的 Alveo 服务器,可以看出,前者 192TB,每个节点压缩吞吐量 1GB/s,后者 96TB(192TB 有效),每个节点压缩吞吐量 20GB/s。
为什么赛灵思的硬件运行速度改善如此之大?Jamon Bowen 的解释是,要优化性能,要有定制的数据途径,还要有定制的进度。具备这两个条件后,应用才能够非常顺利的进行处理,而无需不断地进到一些存储的层级,经过非常复杂的流程就能直接处理。赛灵思在这方面能够给硬件加速,可以通过再编程的方式来调整一些设置。
异构计算是数据中心的未来,很多公司在拥抱加速架构为核心的解决方案,U50 不仅能够提供硬件加速,而且还具有灵活应变的特性。Jamon Bowen 认为,压缩技术日新月异,有 ZS、ZT、LZ,还有超大规模客户发布一些新的压缩算法。我们能够在硬件层面上进行加速,还能够在硬件层面上实现可编程。一旦有了新的标准计算算法迭代之后,赛灵思就能够充分利用 FPGA 的灵活性,在我们平台上迅速部署,其它竞争对手很难做到。
与非网原创内容,未经允许,不得转载!