作者丨姬晓婷
编辑丨张心怡
美编丨马利亚
监制丨连晓东
自计算处理器出现,计算产业一直在关注两个问题:一是性能的提升,二是耗能的降低。在人工智能需求的拉动下,全球众多科研机构和相关企业都在研究提升处理器运算能力的新方式,神经拟态处理器就是其中一个尝试方向。
如何模拟人脑?
神经拟态计算,顾名思义,是一种模拟人脑神经结构和运行方式有关的计算,又被称为类脑计算和神经形态计算。几十年来,科学家一直在研究如何重现生物神经元的多功能计算能力,以开发速度更快、更节能的机器学习系统。
经过几十年的探索和研究,产研界探索出三条神经拟态处理器的实现形式。其一是数字CMOS型,以逻辑门电路仿真实现生物单元行为。其二是数模混合的CMOS型,即利用亚阈值模拟电路模拟生物神经单元的特性。以上两种采用的都是硅基晶体管实现。第三种实现形式是发展新型器件,例如忆阻器、相变存储器、铁电器件、磁隧道结、离子栅控晶体管等,且采用非硅基类器件。
以上研究大多没有实现量产。在诸多研究机构和企业中,英特尔采用的就是上述第一类实现方式——以晶体管模拟人类神经元功能。在诸多模拟的功能中,如何使处理器像人脑一样实现节能,就是其中一项。
神经拟态学工程师、德国海德堡大学物理学家卡尔海因茨·迈耶(Karlheinz Meier)曾表示,人脑相对计算机而言有三大特性,第一大特性就是低能耗,人脑的功率大约是20瓦特。
今年4月,英特尔发布神经拟态系统Hala Point。据称,该系统在执行AI推理负载和处理优化问题时,其速度比常规CPU和GPU架构快50倍,同时能耗降低了100倍。近日,英特尔中国研究院院长宋继强向中国电子报记者详细介绍了该系统模拟人脑降耗的实现原理。他首先介绍了市面上常见的芯片系统的频率特点:这些芯片中常常会提到CPU主频这一技术参数,例如5GHz。这一数字代指其同步时钟的频率,即该芯片内部所有的逻辑门、存储都在这一频率下运转,或者在此基础上做一定的降级。例如总线可能比CPU主频低一些,I/O接口频率又比总线频率更低一些,但整体来说,同一芯片中所有的组件,都由同步的时钟驱动,使得芯片中所有的部件同时工作。这样一来,所有部件的耗能也是同步进行的。
宋继强说,英特尔所做的神经拟态计算取消了同步时钟的概念,采用的是“时间步”(Time Step)的概念,即一项任务完成后,组成计算系统的“神经元”,会按照既定安排一步一步向后推进。在一个时间步内,信号会从一个神经元传递到下一个神经元,以这样的方式传递、扩散。神经拟态计算对系统“时间”统一性的要求是在时间步的层面上达到同步,但并不要求所有的神经元在所有的工作序列中都要实现完全同步,允许有的任务处理得快、有的任务处理得慢。就像人脑,一部分神经元处理嗅觉信息时,另一部分神经元正在处理视觉信息。这样一来,一个神经拟态计算系统中,有任务发生的路径是耗电的,其他路径是休眠的。即便是大规模的神经拟态集群,其工作时神经元也只是稀疏地做并行运算。
该计算系统另一项节约能耗的方式在于其存算一体的结构。当前市面上计算系统的能耗,分布在两大领域,一个是计算,另一个就是数据传输。而神经拟态计算系统实现了存算一体,从而避免了传统核内外架构在处理大量数据传输时存在的能量损耗。
节能与否,要看场景
低能耗被认为是神经拟态处理器的固有架构优势。2020年,宋继强就曾公开表示:神经拟态计算在算法以及芯片的设计上,可以实现以千分之一以内的功耗完成同样效果的模型训练。浙江大学的唐华锦教授也认为神经拟态芯片是一种环境友好型的芯片,并认为这种类型的芯片体积小、功耗低,符合生物进化最本质的优势。
但从Hala Point最新实践结果来看,该类型架构处理器节能与否,与其使用的场景有很大的关联。宋继强介绍称,当前发现该系统在处理用于物流调度数据中心的大规模优化任务时能效表现最佳,相较CPU+GPU的组合方案节能了3000倍。
“但这不是指数据中心中所有的工作负载,只是极个别的几项。”宋继强说,“我们正在寻找该系统适合的场景,如果给它不适合的任务,耗能可能相较原有的处理系统更高。”
关于HalaPoint是否解决当前大模型训练中面临的高能耗问题,宋继强给出的回应是:该系统的设计本身不是直接面向大模型的,并不适合大规模的数据输入。
ResNet50网络(残差网络的一种)是当前能证实Hala Point有降低能耗作用的场景之一,对于此类应用场景,经过调优的Hala Point在达到同等性能的情况下,可以将能耗降低到原有方案的1/100以下。对于某些特定深度的神经网络,例如视觉识别类应用,经过在脉冲神经网络上的一些调优,辅以硬件层面的适配,也能够降低能耗。
从适应的场景整体来看,该系统在稀疏性局部并发型应用中的表现更好。目前,市面上大量神经拟态处理器的主要应用场景在于机器人、无人机。宋继强说,HalaPoint有一半的应用是跟机器人、操控、多模态视觉挂钩的。