作为 Al 芯片的积极布局者与应用者,百度对外发布 AI 云端芯片“昆仑”,备受业界瞩目。在中国产业智能化进程的逐步深入,市场对于 AI 算力的需求超大规模增长,在端侧部署 AI 芯片也成为企业应用 AI 的重要一环。
芯片领域成为热点
我国在人工智能芯片领域不断取得创新突破。各个平台型企业也纷纷基于数据、算法和应用优势,宣布进军人工智能芯片领域。AI 领域已经成为世界科技巨头争夺的制高点, AI 应用的爆发对运算能力提出越来越高的要求,基于传统芯片的 AI 运算加速,已经不能满足需求。
软件领域的谷歌、Facbook,硬件厂商英伟达、英特尔等全都宣布了自己的芯片规划以及未来远景。在这个大背景下,以百度昆仑芯片为代表的国产技术,能够突破国际巨头技术体系的压制,成为国内业界普遍关注国产代表。
国内首款云端全功能芯片
中国首款云端 Al 全功能 AI 芯片“昆仑”是中国在大规模 AI 运算实践中催生出的芯片。
与市面上已发布的适用于垂直场景的芯片不同,百度之所以将“昆仑”定义为国内首款云端全功能芯片,是因为其可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。
基于 FPGA 打造的昆仑芯片
众所周知,GPU 是打造 AI 芯片的重要手段之一。百度昆仑芯片是基于 FPGA 所打造的 AI 芯片采用了 XPU 架构。在 FPGA 方面,百度拥有超过 8 年的 FPGAAI 加速器积累,累计上线超过了 1 万个。其 XPU 架构及软件栈也在实际业务中,有了超过 8 年的持续迭代。
昆仑芯片与 GPU 和专用 AI 芯片相比,在实行性能和性价比上都有一定的优势。昆仑芯片非常通用且灵活,既可以做训练也可以做推理,XPU 的功能架构也在百度内部很多应用中得到验证,相对而言,它是一款全功能的 Al 芯片。
昆仑芯片的闪光点
百度昆仑采用了 14nm 三星工艺、260Tops 性能、512GB/s 内存带宽、100+ 瓦特功耗,由几万个小核心构成。昆仑芯片可以在 100 瓦+功耗下提供 260TOPS ,每秒 260 万亿次定数运算性能。此前,NVIDIA 用于汽车 L 4.L .5 自动驾驶的 Xavier 芯片,8 核 ARM CPU+512 颗 CUDA 的性能是 30TOPS。
架构方面:昆仑芯片有 2 个计算单元,512GB/S 的内存带宽,16MBSRAM/unit。16MB 的 SRAM 对 AI 推理很有帮助,XPU 架构上的 XPU-SDNN 是为 Tensor 等而设计,XPU-Cluster 则能够满足通用处理的需求。
昆仑第一代芯片没有采用 NVLink,而是通过 PCIE4.0 接口进行互联。在三星 14nm 的制造工艺和 2.5D 封装的支持下,昆仑芯片峰值性能可以达到 260TOPS,功耗为 150W。
在灵活性和易用性方面:昆仑面向开发者提供类似英伟达 CUDA 的软件栈,可以通过 C/C++语言进行编程,降低开发者的开发难度。
基于第一代昆仑芯片,百度推出了两款 AI 加速卡,K100 和 K200,前者算力和功耗都是后者的两倍。在语音常用的 Bert/Ernie 测试模型下,昆仑也有明显性能优势。在线上性能数据的表现上,昆仑的表现相比英伟达 T4 更加稳定,且延迟也有优势。
强强合作提升领域发展
2019 年 12 月 18 日,三星宣布代工百度首款云到边缘 AI 芯片“昆仑”,借由三星 14 纳米处理技术及其 I-Cube(Interposer-Cube)封装解决方案生产。
三星的 14nm 工艺是其最广泛使用的制造节点之一,该工艺的晶体管密度为 32.5 MTr /mm,主要用于英伟达的 GeForce 10 系列,以及许多高通和三星芯片。它有多种变体,包括 14nm LPE(Low Power Early)和 14nm LPP(Low Power Plus)。
目前昆仑芯片已完成开发,并将批量生产。昆仑芯片首先将会用于百度的自家产品当中,能解决工业智能遇到的计算问题以及和飞腾 ARM 处理器的适配。
昆仑芯片未来落脚点
工业上百度昆仑芯片也正式在微亿智造的工业智能质检设备上部署上线。百度智能云以整机一体化方式,向微亿智造交付搭载百度昆仑芯片的百度云质检一体机。
预计在今年以内,微亿智造的数千台智能质检设备将全部应用上百度昆仑芯片,而百度昆仑还将在更多场景中部署应用,百度的 AI 能力将成为“新基建”的重要基础,推动工业制造业的产业智能化升级。
结尾
未来“昆仑”既将实现对数据中心、公有云等云端场景的全覆盖,也将用于满足自然语言处理、语音识别、自动驾驶等终端场景的计算需求。此次“昆仑”能成功落地,有望形成人工智能芯片与平台应用相互促进的良性循环。