GPU和NNA让边缘智能更快、更好地落地

在当前的科技圈，最火的技术名词莫过于 5G 和 AI。5G 作为一种全新的网络架构，提供 10Gbps 以上的峰值速率、更佳的移动性能、毫秒级时延和超高密度连接；AI 则是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等），主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。

而 5G / AI 均和边缘计算有关联。Imagination PowerVR 视觉及 AI 部门高级总监 Andrew Grant 认为，在嵌入式设备上使用 AI 进行边缘计算是 AI 革命的一部分；5G 是将边缘带入下一阶段的大规模商业化的技术之一，与 AI 一样，能最好地证明这一点的应用仍在开发之中。

Imagination PowerVR 视觉及 AI 部门高级总监 Andrew Grant

他对此进行了详细的论述。

针对 AI 和边缘计算
这个简单的原理使复杂的系统能够显著加快推理速度。设备和传感器现在可以识别猫，甚至许多其他物体，就像人以实时决策的速度进行识别一样。在自动驾驶汽车中，这些系统可以识别其他车辆，区分道路和人行道，区分行人和道路标志。然后，它们可以开始作决定，不仅决定车辆应该做什么，还可以进行预测，例如一位行人是否将要冒险进入道路。

这里至关重要的是，这种复杂的推理传统上是在“云端”执行的，但现在可以在“边缘”设备上运行——即在本地嵌入式处理器中运行，在仅占用 1-2 平方毫米硅面积上，可提供以优异性能加速神经网络层的能力。这改变了游戏规则，因为这意味着强大的 AI 计算能力现在可以置入最小的 IoT 设备中。

边缘设备中的这种硬件 NNA 正在实现 AI 性能的阶跃式变化，这将为汽车、机器人、监控摄像头和整个城市带来智能。随着 AI 越来越靠近边缘并进入传感器、摄像头和手机等设备中，在许多情况下，它无需云计算机架，而是将分析转移至 IoT 设备本身。这消除了处理过程中的所有延迟，并将 IoT 数据转换为有用的信息以改善决策过程。在数据中心经过大规模训练的强大的神经网络，通过量化和自适应，可以被部署在小型边缘设备上。上述这些技术的应用将特别有助于克服延迟、传输、安全和成本方面的挑战。

通过在一片比针头还小的芯片上进行推理，这些边缘设备将影响众多市场——包括但不限于安全、零售、联网家庭、教育、农业和健康。过去还只能想象的处理能力此刻已掌握在我们手中。随着这些边缘设备越来越多地被用于工厂、家居和汽车中，它们最终将变得无处不在，到了那个阶段，它们基本上将成为无形的、遍及各处的“智能边缘”。

人工智能的这种增长趋势已经得到了广泛关注，诸如英国《金融时报》、麦肯锡和德勤等主流机构最近都发表了报告和文章，强调神经网络正在走向边缘，创造了“环境式”人工智能（“ambient” AI）。这已经被称为 AIoT，它将智能边缘进一步带向 AI 与 IoT 的结合。随着廉价传感器和设备的快速增加，它们通过运行神经网络的能力获得了智能，实现了“双赢”的局面。

针对 5G 和边缘计算
我们可以看到改进的连接性使边缘应用能够做更多的事情。移动设备、汽车和智能基础设施将推动此项技术应用向前发展。

智慧城市全都是智慧 AI 赋能的基础设施。在智慧城市中，监测交通流量的传感器将数据传送回云端的“大脑”，从而使交通能够顺畅地运行，提高道路使用效率。在一个智慧城市中，汽车将依靠这一智能基础设施使驾驶员了解即将要面临的交通状况。因此，尽管与路灯柱、交通信号灯和路标交流对普通人来说似乎很疯狂，但是未来，您的汽车无时无刻都会做这些事情。同样地，我们将看到车辆对车辆（V2V）和车辆对基础设施（V2X）系统越来越多地被使用，还将看到通过交互使智能边缘传感器“所见”的内容作为有用的信息被传递。V2X 将成为一项基本要求——这需要在数万亿个传感器上实现 AIoT。AIoT 将为这种车辆与基础设施之间的通信提供支持，实现多个途径的信息交换，从而使车辆能够基于实时信息和预测信息作出知情的选择。

例如，当高速公路标志因为人工控制人员没有意识到需要刷新而显示过时的信息时，会多么令人沮丧？又例如，在绕过拐角并成为三英里堵车长龙的一部分之前就知道从出口出去是不是会更好？当前，卫星导航系统依靠众包数据来实现这一功能，但是使用实时信息将使这一过程自动化并减少获取数据时的延迟。

边缘计算只是整个过程的开始。神经网络加速正在使城市、汽车、工厂机器人和监控摄像头中的边缘设备变得更加智能。我们用于神经网络加速的架构创造了“智能边缘”，它是一种无处不在的、无形的技术。

Imagination 的边缘计算布局

通过 Andrew Grant 的描述我们不难发现，不管是 AI、5G 还是边缘计算，都有着巨大的未来潜力，但是还远远没有真正释放。我们依然处于这些技术爆发的“前夜”。

而边缘计算之所以难以大规模落地的原因之一就是缺少基准程序和行业标准。Andrew Grant 表示：“在 AI 和嵌入式领域，真的可以说很难找到合适的性能基准，但是，这些最终都将会实现，AI-benchmark.com 和 AIIA 在建立通用基准方面已经做了有价值的工作。然而，迄今为止，AI 基准通常专注于数据中心的工作负载，在这类工作负载上主要测量浮点数据而非量化性能（更小的边缘模型和更快的整数性能）。在数据中心训练深度学习模型的基准与在边缘端进行推理的基准相差甚远，而边缘端才是边缘 AI 发挥作用的地方。的确，如果移动 GPU 运行神经网络工作负载的速度可以比移动 CPU 快 10 倍，那么专用神经网络加速器运行相关工作负载的速度通常可以比移动 CPU 快 200 倍。”

他认为，除了找到合适的性能基准，边缘计算落地还需要在意识、愿景、能力、性能功耗比和教育方面做出突破，这样才能让边缘计算，亦或者是更进一步的智能边缘，更快、更好地落地。

Andrew Grant 详细地解释到：
--首先，人工智能在全球范围内已经取得了重大进展，相关新闻也登上了头条，但是各个行业仍然缺乏意识，因为这些技术进展都需要时间来推广，进而作为“已应用的人工智能技术”被广泛采用。这是因为许多企业需要了解在看起来很复杂的领域进行投资能为他们带来哪些收益。其次，愿景也至关重要，它可以让我们看清生产力的提升和数据驱动的自动化从何而来。通常，只有具备真正领导力的企业才能阐明边缘 AI 的愿景。边缘设备的能力意味着它可以执行所需的功能，即用于工业质量控制或自动驾驶汽车的传感器和摄像头。边缘处理正越来越多地利用非常复杂的神经网络来支持深度学习应用。

--其次，性能、硅面积和功耗都是至关重要的因素。能够在针头大小的、可能由太阳能或风能供电的芯片上执行具有挑战性的任务，的的确确改变了游戏规则。

--最后一点，政府部门意识到，对行业中的所有管理层人士进行教育，让他们了解可以利用的所有机遇是会花费些时间的，但也会更快地推动这些技术被采用。

面对蓄势待发且潜力巨大的边缘计算市场， Imagination Technologies 将自己在移动设备上的所有经验和专业知识应用在人工智能（AI）的边缘计算，并开发出了用于深度学习（Deep Learning）的神经网络加速器（Neural Network Accelerator，NNA）。

Andrew Grant 介绍说：

Imagination 创建了图形处理器（GPU）和专用 NNA 知识产权（IP）设计，并将其授权给那些希望自己的芯片可以更快上市的公司。Imagination 专注于边缘端，并致力于加速 AI 应用以使边缘设备更智能。

边缘计算将智能从网络 / 数据中心转移到边缘端，降低了延迟、数据传输量和总体成本，同时由于来回转移的数据更少使安全性得以提升。这意味着在未来几年，边缘端在重要性、容量和灵活性方面将赶超云端（Cloud）。

我们在人工智能物联网（AIoT）方面看到了大量的机遇，AIoT 就是边缘 AI 和物联网（IoT）的结合，我们很自豪可以去提倡对这些机遇的理解。我们在世界各地的会议上谈论我们的愿景，即通过 NNA 为边缘端赋能，以支持智慧城市、汽车和连接等领域。

Imagination 对 AI 的认识源于我们在计算机视觉和移动领域的悠久历史。多年来，我们一直在 GPU 上运行人脸识别和对象分类网络，这些知识使我们能够提供专用的硬件，以呈指数级加快的速度去执行这些改变游戏规则的任务，同时功耗也会得到显著改善。

我们的研发非常专注于最大化单位面积的性能，以及运行最新的框架和神经网络，使客户能够获得其系统级芯片（SoC）的最佳性能，进而支持应用商在汽车、监控和智慧城市等领域的人工智能物联网中运行最新的应用。Imagination 最新的 NNA 是基于“加速卷积神经网络”这一基本原则进行设计的，从而使所有设备都可以利用超快的每秒推理速度。

随着边缘 AI 的发展，我们看到在移动、智能监控、汽车、家庭娱乐和众多其它行业中有很多功能更强、自主程度更高、更易于使用的设备被创造出来。在边缘端部署低功耗嵌入式智能的一项关键挑战是在处理性能、灵活性、成本和功耗之间实现恰到好处的平衡。NNA 是一种小型化的专用处理器，对于相同的面积和功耗预算，它能以中央处理器（CPU）或 GPU 无法实现的速率来执行卷积神经网络（CNN）所需的核心功能。NNA 通常能够在功耗预算小于 1 瓦的情况下，在 1-2 平方毫米的硅面积上提供超过 1TOPS（Tera-Operation Per Second，每秒万亿次运算）的运算能力。Imagination 的全新 PowerVR Series3NX NNA 的速度远不止于此，其旨在通过提供灵活性、可扩展性和领先的顶级性能，使 AI 在边缘端被大量采用。

针对硅面积小（成本）、性能高（高的 TOPS 级别运算能力）、功耗低和模型尺寸小等需求，我们将自己的产品设计为可满足这些需求的解决方案。我们的方法使用了定点数据类型和量化技术，以最小化模型大小和所需的带宽。无损权重压缩进一步提高了效率。此外，我们的 NNA 硬件内核 IP 是独特的，因为它支持可变的位宽度，因此可以逐层调整权重，以实现部署模型的最高精度，同时最小化模型尺寸以减小内存带宽和降低功耗。总体而言，这在低功耗要求下提供了非常高效的性能。我们最小尺寸的 NNA（小于 1 平方毫米）拥有令人印象深刻的能量效率，甚至可以使设备能够依靠电池和从太阳能或风能采集的能量来运行。

凭借对 TensorFlow、TensorFlow Lite、Caffe 和 ONNX（一种交换格式 / 转换层，支持 PyTorch、MXNet、Caffe2、Paddle Paddle 等多个框架）等流行框架的支持，Imagination 的 NNA 内核系列可以加速最优化应用所需的神经网络层。

边缘计算是在高带宽、时间敏感型、物联网集成这个背景下发展起来的技术，指的是接近于事物、数据和行动源头处的计算，不仅需要能够帮助系统快速的做出响应，同时也需要分布在各终端巨量的设备能够不造成更大的维护负担。在这样的情况下，部署的边缘 AI 必须要有低功耗的特性。

Andrew Grant 认为：“功耗是 PPA（单位面积的功耗和性能）指标中的关键因素之一，因此我们的设计理念是要知道在最小化所需功耗的同时最大化性能。显然，这很难权衡，但是我们在手机 GPU 上的经验意味着我们非常了解功耗对电池的影响，因此我们进行了相应的设计。”

边缘计算让更多的设备采集数据、处理数据和存储数据，在某些层面增大了数据保护的难度。针对边缘设备，骇客和攻击者一直在寻找利用缺陷的新方法。总之，安全是怎么强调都不为过的。Andrew Grant 表示：“边缘设备的复杂性将会增加，因为内存和存储很重要，同时还要考虑依靠以太网供电或能量收集来运行的能力——这对于远程传感器而言通常至关重要。由于我们的内核引擎尺寸从小于 1 平方毫米到大约 3 平方毫米，因此我们在设计时就考虑了功耗和性能。对于农业和环境监测以及传感器部署于脏乱、困难和危险环境中的情况而言，这会非常重要。

我们将安全性视为所有这些设备的基本要求，并且我们拥有 GPU 虚拟化解决方案，可以在需要时对工作负载进行优先级排序和隔离，直至操作系统虚拟化。NNA 具有内置的安全钩，允许应用去利用安全区域。我们认为，在这个复杂的世界中，将任务划分到最合适的安全级别的能力是一项真正的优势。

此外，在设备上进行处理的能力很重要，因为这样就无需将数据传回网络中心，避免了数据在传输过程中被拦截。”

根据业者的估计，中国边缘计算市场将超过万亿元的规模，对于所有的参与者而言这都是一个不容忽视的巨大机遇。Andrew Grant 对此表示：

“中国将很快成为世界上最大的单一经济体，其工业基础具有市场规模，在人工智能发展方面处于领先地位，并且拥有强烈的创新意愿。首先在中国推广边缘计算技术是非常重要的机会，基于其各城市的先进基础设施，中国能够引领这些先进技术的部署。

Imagination Technologies 投入中国市场已有数十年，并且在几个主要城市均设有办事处，可以近距离地提供客户支持和现场工程支持。在移动、汽车和 AIoT 领域，中国主要的芯片公司都使用了 Imagination 的 IP 设计以领先其竞争对手，我们看到了中国强有力的、积极的发展前景，并且在帮助中国向全世界输出产品。我们边缘 NNA 的性能因其量化性能和精确度而在 AI-benchmark.com 的列表中排名第一。

我们的策略是创建能够支持客户取得成功的 IP 设计——通过使用我们的先进技术助力他们的产品更快上市，同时使他们在性能、功耗和面积方面更具竞争力，从而降低他们的硅成本。

我们的研发部门希望在充分利用性能的同时根据市场需求增加灵活性。此外，我们的专业知识和经验以及广受欢迎的工具和工作流程可以确保我们客户的客户能够充满信心地开发其在边缘运行的应用。”