Socionext 和日本东北大学显著加快基于深度学习的 SLAM 处理

Socionext Inc. 与Takayuki Okatani 教授领导的日本东北大学研究小组合作，开发了一种新方法，可以减少 SLAM（同步定位和映射）所需的处理时间，这对于执行自主控制的设备至关重要，时间仅为传统技术所需时间的 1/60。这种新方法使得在一些CPU 性能有限以及功耗有限的边缘设备的 SoC进行高级 SLAM 处理成为可能，例如自动驾驶汽车、AGV（自动导引车）、机器人、无人机和其他执行自主的设备控制，以及诸如 AR（增强现实）眼镜之类的设备。

该研究工作已被 ICCV（计算机视觉领域最负盛名的会议之一）接受为演讲报告。这种新方法在 10 月 11 日至 17 日在线举行的ICCV 2021会议上进行了介绍。

根据用于获取物体周围 3D 信息的传感方法，SLAM 可以分为两种主要类型。一种是 LiDAR（光探测和测距），它使用激光测量距离。另一种是Visual SLAM，它使用相机图像。视觉 SLAM 正在显着发展，因为所使用的相机相对便宜，并且除了同时定位之外，还可以将该方法与使用图像识别的各种控制过程相结合，从而可以期待许多应用。

近年来，随着深度学习的引入，图像识别技术取得了显著的进步，深度学习的应用成为了视觉SLAM演进的重要因素。然而，基于特征点和相机方向优化地标的未知 3D 信息的束调整（BA）所需的大量计算是传统方法的瓶颈。对于 CPU 处理能力有限的边缘型 SoC 设备，这会使实际处理变得困难。（图1）

（图1）

为了应对这一挑战，研究团队提出了一种使用“图网络（GN）"[1] （一种图神经网络）通过推理进行近似计算的方法。新方法包括从 GN block输入的关键帧和地标信息中推断更新信息（图 2），并通过多堆栈 GN 结构收敛到最终值（图 3）。与使用传统 Levenberg-Marquardt 方法的标准束平差相比，这些使得推理处理所需的计算量更少。

（图2）

（图3）

研究团队使用这种新的推理方法实现了 Visual SLAM 捆绑调整，并将其与当今广泛使用的方法“g2o”[2]进行了比较。 PC 仿真结果证实，与 g2o 相比，新方法可以将处理时间缩短至 1/60。（图 4）

（图4）

Socionext 将从这项研究工作中积累经验，并将 Visual SLAM 技术确立为公司定制 SoC 解决方案的产品之一。该公司将为工业设备和移动等需要图像识别领域的客户系统提出创新的性能改进方案。此外，公司将继续研发通过新的推理方法提高处理效率，并将其使用扩展到图像识别以外的新客户应用。