当下没有比 AI 这个话题更火热的了,凭借多年布局与卓越的 GPU 性能,英伟达成为 AI 芯片一哥,并以 AI 公司进行自身定位。然而,众多实力玩家对这个一哥位子垂涎欲滴。英伟达若想笑傲 AI 芯片江湖,先要把 FPGA、ASIC、TPU、类脑芯片打败才行。
在这几大威胁中,FPGA 是最被熟知的,毕竟号称是“万能芯片”。透过以“All Programmable”定位的赛灵思进行云计算、嵌入式视觉、工业物联网以及 5G 无线全布局,就可以看到 FPGA 在多个市场的渗透,因其灵活性在多领域受宠。
近年来,FPGA 越来越多地用于内存数据库加速和搜索,图像处理中的转码与分析等方面。
赛灵思与英特尔的博弈只是刚刚开始
近日,百度正式在全新的公有云加速服务器中,采用赛灵思 FPGA 产品线包括 Kintex FPGA、工具和软件。百度 FPGA 云端服务器是百度云的一项新服务,可为每位用户提供一个独享的 FPGA 加速平台,每个 FPGA 都是一款专用的加速平台,而实例或用户之间不会共享,包含深度学习加速、加解密等 FPGA 加速实例。
当然百度并非首家,国内首家被年初宣布推出 FPGA 云服务器的腾讯抢去了。不过,腾讯的合作伙伴不止赛灵思一家,还有收购 Altera 的英特尔。
其实云平台上支持最新的 FPGA 异构计算架构仍处于起步期。去年 10 月,亚马逊 AWS 推出 FPGA 云服务 EC2 F1;微软在 Ignite 技术大会上演示了 FPGA 加速机器翻译,并已经使用 FPGA 加速 Bing 搜索和 Azure 云。
FPGA 结合云计算形成新的 FPGA-as-a-Service 或者 Accelerator-as-a-Service 平台,则可以整合多方资源解决上述问题。平台厂商与 FPGA 硬件厂商合作,在云端提供统一硬件平台与中间价,可大大降低加速器的开发与部署成本。加速器开发商的加速器上传到云,可以形成服务销售给加速器用户,消除加速技术与最终用户的硬件壁垒。而加速器用户则能够在无需了解底层硬件的情况下,直接按需购买和使用加速服务,较传统方案更快更省地完成数据处理。
业内人士认为,“FPGA+云”开启了云 2.0 时代,云计算未来竞争焦点无疑是大数据和人工智能,这也将成为新时代云计算格局巨变的诱因。FPGA 云服务器可在芯片核心底层释放人工智能潜力。
英特尔预测,到 2020 年,超过三分之一的云计算节点将部署 FPGA 加速器。而微软为了加快人工智能的发展时程而大力支持 FPGA。据业内人士分析,这也是英特尔以 167 亿美元收购 Altera 的原因之一。
可见,赛灵思与英特尔在这一领域必将刀戈相向。
与非网小编也简单盘点了下热门 FPGA 云加速器上用的是哪颗芯。
云服务器上的 FPGA 芯
百度云,赛灵思 KU115 FPGA
百度自研 FPGA 加速卡使用赛灵思 20nm KU115 FPGA。FPGA 板卡带有 4 通道 DDR4,每个通道 72bit,带 ECC,容量 2GB,速率 2400Mhz。FPGA 通过 PCIE 3.0x8 和 CPU 相连。板卡的结构框图如下所示:
基于上面的 FPGA 板卡,百度还提供的 FPGA 标准开发环境,其系统结构如下图:
亚马逊 EC2 F1,赛灵思 16nm Virtex UltraScale+ FPGA
AWS F1 使用的是 Xilinx 最新一代 UltraScale +架构的高配 FPGA VU9P。FPGA 提供可编程的硬件加速器。 AWS 为 FPGA 开发了新的镜像格式,称为 AFI。用户可使用 aws ec2 create-fpga-image 命令将编译好的加速器注册为 AWS AFI,然后可在任意 F1 实例上使用 AFI Management Tools 部署执行。
AFI 是 F1 实例上对 FPGA 编程的唯一方式,从安全和管理角度考虑,Amazon 目前没有今后应该也不会提供直接下载 Bitstream 到 FPGA 的接口。这样,AMI 定义虚拟机系统镜像,AFI 定义 FPGA 加速器镜像,两者合起来就能配置一台完整的带 FPGA 加速的服务器。加速器开发商可以将加速器 AFI,或者 AMI+AFI 发布到 AWS Marketplace 进行销售。而加速器用户只需使用传统的 EC2 流程即可购买开启 FPGA 加速实例。
腾讯云,赛灵思 Kintex UltraScale KU115 FPGA
腾讯云有赛灵思和英特尔两种方案,推出的全新 FPGA 型 FX2 实例包含 3 个版本,都是搭载赛灵思 Kintex UltraScale KU115 FPGA。可应用于深度学习与实时图像处理领域。
在深度学习方面,使用 FPGA 云服务器对深度学习模型中 CNN 算法的 Alexnet 模型进行加速计算。采用 Alexnet 模型对图像进行分类检测对比测试,在性能上,FPGA 云服务器处理性能是 CPU 云服务器的 5 倍。
在图像处理方面, 尽管 WEBP 图片格式因其比 JPEG 图片格式存储空间小 30%,但其压缩计算复杂度是 JPEG 压缩的 10 倍以上。因此采用 CPU 进行 WEBP 转码成本很高。为了增强图片转码能力,使用 FPGA 云服务器进行加速。对 JPEG 格式图片转成 WEBP 格式图片进行测试对比,测试图片大小为 853x640,FPGA 云服务器处理延时相比 CPU 服务器降低 20 倍,FPGA 云服务器处理性能是 CPU 服务器的 6 倍。
下一阶段也会推出基于 Intel 的 FPGA 硬件平台。
FPGA 备受青睐,但常人却难以“消化”
FPGA 云服务器只是折射出了 FPGA 应用领域的一角,可见 FPGA 备受热门应用青睐。然而,自 Xilinx 在 1984 年创造出 FPGA 以来,却一直被广大工程师认为是难以“消化”的技术,其主要障碍还在于编程方面。
为了解决这一痛点,Xilinx 将 Vivado 产品作为重点推广内容,它可用 C 语言进行设计,软件工程师就可轻松进行硬设计。于此同时,Altera 有一个已经开发的 OpenCL 环境。两家公司都在试图创建一个新环境,让用户可以使用更熟悉的编程(如 C 和 OpenCL),而不受 Verilog、VHDL 的限制。
FPGA 全球格局
FPGA 门槛之高在芯片行业里无出其右,因此这个领域被实力玩家垄断。曾经这还是四大巨头赛灵思、Altera、Lattice、美高森美的的争夺地。而如今在收购、兼并、重组的大环境下,格局已大变。
• Altera:2015 年 12 月,全球第二大 FPGA 制造商 Altera 被芯片巨头英特尔以 167 亿美元完成收购,这也是英特尔历史上最大的一起收购。
• Lattice:2016 年 4 月紫光宣布在公开市场收购 Lattice 6.07%股权,致使 Lattice 的股票股价大涨 18%;2016 年 11 月 3 日, Lattice 被 Canyon Bridge 以 13 亿美元收购(还未正式确定)。
• Microsemi:2017 年 3 月 21 日,美高森美宣布关闭位于上海的制造工厂。预期,上海美高森美半导体有限公司正式关闭时间为 2017 年 10 月底。
本期《芯榜单》就到这里,下期见。
更多相关文章,欢迎访问与非网《芯榜单》系列!
与非网原创内容,未经许可,不得转载!