加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

抓住AI带来的3倍飙升,这家公司拼力打造“FPGA+”实现突破

2019/05/30
61
阅读需 25 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

近几年,FPGA 由于具有可编程的灵活性,大受 AI 设计公司的青睐。目前,FPGA 在 AI 芯片行业呈现出两种发展趋势,一个是在 FPGA 的基础上推出优化架构,二个是最大化程度挖掘 FPGA 的使用范围,甚至从 FPGA 转向专用定制芯片 ASIC。Semico Research 数据显示,FPGA 在过去几年的 CAGR 保持在 8-10%左右,未来五年随着 FPGA 在 AI 应用中的扩张,CAGR 将高达 38.4%。为了保持自身竞争力,全球有 25%的企业使用了人工智能机器学习,两年内这一比例将增长到 72%,Semico Research 预计在 4 年内,应用于人工智能的 FPGA 市场规模将增长 3 倍,达到 52 亿美元。

但是人工智能算法仍在不断演进,数值精度选择呈多样性,计算引擎要具有可编程性、更高效;内存层次结构需要更高带宽,实现内部和外部记忆;数据移动需要消除拥堵点,实现 FPGA 架构中的 ASIC 性能。设计者需要利用 FPGA 架构实现最佳功耗、性能和灵活性,打破降低效率的历史瓶颈。


Achronix 公司董事长兼首席执行官 Robert Blake

为了满足人工智能 / 机器学习(AI/ML)和高带宽数据加速应用日益增长的需求,Achronix 推出了 Speedster7t FPGA 系列产品。Achronix 公司董事长兼首席执行官 Robert Blake 介绍,“AI 处理的数据量非常大,要让数据高效地传输到不同的部分,需要考虑三个因素:高效计算力、高效大宽带的数据运算能力、高效丰富存储缓存能力。Speedster7t 系列是基于一种高度优化的全新架构,以其所具有的如同 ASIC 一样的性能、可简化设计的 FPGA 灵活性和增强功能,从而远远超越传统的 FPGA 解决方案。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的‘FPGA +’技术


一种新型技术 FPGA+:FPGA 与 ASIC 技术的融合

重新设计整个 FPGA 架构
在开发 Speedster7t 系列 FPGA 的产品过程中,Achronix 的工程团队完全重新构想了整个 FPGA 架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,可以应用于基于边缘和基于服务器的 AI / ML 应用、网络处理和存储。


 
在制造工艺方面,Speedster7t 器件采用了 TSMC 的 7nm FinFET 工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。

Speedster7t 系列产品包括高带宽 GDDR6 接口、400G 以太网端口和 PCI Express Gen5 等接口,所有这一切单元都互相连接以提供 ASIC 级带宽,同时保留 FPGA 的完全可编程性。Robert Blake 强调,“我们是唯一一家支持 GDDR6 的模块高带宽存储方案的 FPGA 公司。每个 GDDR6 存储控制器都能够支持 512 Gbps 的带宽,Speedster7t 器件中有多达 8 个 GDDR6 控制器,可以支持 4 Tbps 的 GDDR6 累加带宽,并且以很小的成本就可提供与基于 HBM 的 FPGA 等效存储带宽。”

Achronix 为什么选择 GDDR6?Robert Blake 解释,“目前只有两个方案:HBM2 和 GDDR6。现在 HBM2 和 GDDR6 性能差不多,HBM2 成本太贵,而且灵活性差,我们采用 GDDR6 比采用 HBM2 成本降低一半。”

Speedster7t 系列产品可以打破 FPGA 的瓶颈问题,提供最高的 FPGA 计算密度、最高带宽数据传输、高带宽和低成本的存储器接口,主要得益于两点创新:二维片上网络(2D NoC)和机器学习处理器(MLP)模块阵列。

二维片上网络(2D NoC)


传统 FPGA 加速数据会将数据传输到外面,需要布线单元来做,性能受到限制,而 Speedster7t 建设了很多高速通道,即二维片上网络(NOC),其可以横跨和垂直跨越 FPGA 逻辑阵列,连接到所有 FPGA 的高速数据和存储器接口,利用这些高速通道将数据从一端传输到另外一端。


高带宽片上网络

Robert Blake 解释,“它们就像叠加在 FPGA 互连这个城市街道系统上的空中高速公路网络一样,Speedster7t 的 NoC 支持片上处理引擎之间所需的高带宽通信。NoC 中的每一行或每一列都可作为两个 256 位实现,单向的、行业标准的 AXI 通道,工作频率为 2Ghz,同时可为每个方向提供 512 Gbps 的数据流量。”


 
通过在 Speedster 中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个 FPGA 结构中的任何自定义处理引擎。最重要的是,NOC 消除了传统 FPGA 使用可编程路由和逻辑查找表资源在整个 FPGA 中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高 Speedster7t FPGA 的总带宽容量,还可以在降低功耗的同时提高有效 LUT 容量。

Robert Blake 也表示,“二维 NOC 都是用 ASIC 来做的,客户采用我们的 FPGA,如果后期需要做 ASIC,不需要花费更多的时间,可以将小部分可编程 IP 集成到 ASIC 中。现在最流行的 AI 技术硬件方法有 GPU、CPU 和 ASIC,如果算法固定有可能用 AISC 实现,这一市场一直在增长,三种技术各自都有自己的优势。”

机器学习处理器(MLP)模块阵列
传统上,使用 DSP 模块进行 AI / ML 训练,所支持的精度不够,构建 AI/ML 应用程序,需要消耗额外逻辑和存储资源,性能收到限制。Speedster7t FPGA 的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于 FPGA 的计算密度。MLP 是高度可配置的、计算密集型的单元模块,可支持 4 到 24 位的整点格式和高效的浮点模式,包括对 TensorFlow 的 16 位格式的支持,以及可使每个 MLP 的计算引擎加倍的增压块浮点格式的直接支持。
 

 


MLP 与嵌入式存储器模块紧密相邻,通过消除传统设计中与 FPGA 布线相关的延迟,来确保以 750 MHz 的最高性能将数据传送到 MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于 FPGA 的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。

Robert Blake 表示,“Achronix 除了为客户提供 FPGA 产品,还可以进行 eFPGA IP 授权,支持从 Speedster7t FPGA 到 ASIC 的无缝转换。FPGA 应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于 ASIC 的转换而言,固定功能可以被固化进 ASIC 结构中,从而减小芯片面积、成本和功耗。当使用 Speedcore eFPGA IP 将 Speedster7t FPGA 转换为 ASIC 时,客户有望节省高达 50%的功耗并降低 90%的成本。”

与非网原创内容,未经允许,不得转载!

Achronix

Achronix

Achronix Semiconductor Corporation is a fabless semiconductor corporation based in Santa Clara, California, offering high-performance FPGA solutions.

Achronix Semiconductor Corporation is a fabless semiconductor corporation based in Santa Clara, California, offering high-performance FPGA solutions.收起

查看更多

相关推荐

电子产业图谱