计算机视觉关键技术及其在通信工程中的应用

本文首先总结了计算机视觉领域的重要关键技术以及典型算法模型，随后介绍了这些技术在通信工程领域内设备安装、施工验收、三维测量以及天面核查等四种典型场景下的应用方案及实施效果，上述应用实践将为在通信工程行业构建数字孪生网络提供有益探索。

1、引言

计算机视觉（Computer Vision， CV）是指用计算机来模拟人的视觉系统，实现人的视觉功能，以适应、理解外界环境和控制自身的运动。数据、算力和模型是计算机视觉行业发展的三大基石。2000 年之后，数据量的上涨、运算力的提升和深度学习算法的出现促进了计算机视觉行业的迅猛发展。

随着高性能智能终端的普及以及影像采集设备成本的下降，通信行业逐渐在勘察、施工、优化和运维等领域累积了大量非结构化的图像数据；同时，图像处理器（Graphics Processing Unit，GPU）的便利应用也为开展高强度并行计算提供了算力基础。

本文首先总结了计算机视觉领域的重要关键技术以及典型算法模型，随后介绍了这些技术在通信工程领域内设备安装、施工验收、三维测量以及天面核查等几种典型场景下的技术方案，并提供了所属应用的实施效果。

2、计算机视觉领域的关键技术

2.1 重要关键技术

计算机视觉领域一般包括如下五类关键技术。

（1）图像分类

图像分类主要研究内容是对图像进行特征描述。通常，图像分类算法通过手工特征或者特征学习方法对整个图像进行全局描述，并依据图像特征图的不同语义信息进行分类，该技术广泛应用于人脸识别、手写文件或印刷识别、车辆识别等场景。常用的图像分类模型包括：AlexNet[1]、VGG[2]、ResNet[3]、InceptionV4、MobileNetV3[4]、ShuffleNet 等。

（2）目标检测

作为计算机视觉的一个重要分支，目标检测的任务是在一幅图像或视频中找到目标类别以及目标位置。与图像分类不同，目标检测侧重于物体搜索，被检测目标必须有固定的形状和轮廓；而图像分类可以是任意目标包括物体、属性和场景等。目标检测已在人脸识别和自动驾驶领域取得了非常显著的效果，经典的检测模型有 YOLOV3、SSD[t5]和 Faster RCNN[6]。

（3）图像分割

图像分割指的是将数字图像细分为多个图像子区域（像素的集合，也被称作超像素）的过程。图像分割的目的是简化或改变图像的表示形式，使得图像更容易理解和分析。图像语义分割是一个像素级别的物体识别，即每个像素点都要判断它的类别。Mask R-CNN[7]就是一种经典的实力分割网络。

（4）场景文字识别

场景文字识别分为两部分，首先通过目标检测检测出目标区域，然后通过 CRNN-CTC 模型将网络特征转为文字序列。场景文字识别广泛应用于路牌识别、车牌检测等领域。

（5）图像生成

图像生成是指使用对抗网络（GAN）根据输入的随机噪声或向量生成目标图像。生成器、识别器是对抗网络（GAN）的重要组成部分。

2.2 典型算法模型

近年来，计算机视觉领域的优秀算法层出不穷，以下择要简介下文研究使用的一些模型。

（1）VGG

2014 年，牛津大学计算机视觉组和谷歌公司的研究员联合研发出一种新的深度卷积神经网络，即 VGGNet，并获得当年 ILSVRC 分类比赛的亚军。VGGNet 分为 VGG16 和 VGG19：VGG16 通过 13 层 3×3 的卷积网络和 3 层全连接网络构建，VGG19 则通过 16 层 3×3 的卷积网络和 3 层全连接网络构建。VGG19 被广泛应用于不同行业的图像特征提取领域。

（2）Resnet

深度残差网络（Residual Network, ResNet）是过去几年中计算机视觉领域颇具开创性的工作。因其强大的表征能力，除图像分类以外，包括目标检测和人脸识别在内的许多计算机视觉应用都得到了性能提升。ResNet101 是其中的一种网络堆叠方式，101 层网络指齐总的卷积或全连接层数目。

（3）SIFT

尺度不变特征转换（Scale-invariant feature transform，SIFT）是一种用来侦测与描述影像局部性特征的重要算法，由 David Lowe 在 1999 年所发表，并于 2004 年总结完善。SIFT 算法主要用于处理两幅图像之间发生平移、旋转、仿射变换情况下的匹配问题。

（4）Mask R-CNN

Mask R-CNN 是华人学者何恺明提出的一种简洁、灵活的图像实例分割框架，用于判断图像中不同目标的类别和位置，并可做出像素级预测。该算法不仅能够有效地检测图像中的目标，而且还能为每个实例生成一个高质量的分割掩码。

3、通信工程中典型应用与效果

3.1 设备安装方式检测

蓄电池是通信机房内的重要基础设施，按照设备属性、机房空间等因素，蓄电池的安装方式可分卧式和立式两种（图 1）。在局房设计时，需要因地制宜地制定安装方式；在施工验收时，需要关注是否按图施工。通常，安装方式的信息采集和现场核验都是人工判断并填注到相应信息系统中，填报错误时有发生。

图 1 通信机房内蓄电池安装方式（左：卧式；右：立式）

引入 VGG19 模型中的采用 VGG19 模型中的二分类法，基于一般清晰度的现场图像，本文设计出图 2 所示算法，可高效识别这两种安装方式，在 100 张标注样本数据时，置信度可以即可以达到 0.95 以上；同时，还可以借助移动互联网手段，在图像信息采集终端中实现即时识别（图 3），从而提升现场查勘人员信息填写效率并降低人工填报错误率。

图 2 基于 VGG19 模型的蓄电池安装方式检测

图 3　即拍即传至后台自动填写采集终端的属性字段

3.2 施工工艺图像质检

家庭市场是中国移动“四轮驱动”战略的重要组成部分，业务发展已经进入快车道，并由“高速度”向“高质量”转型。当前家宽装维主要存在以下问题：人工抽检覆盖率低、成本高；人工质检依靠经验，存在漏检、错检的情况，结果不可靠。

通过计算机视觉技术可构建家客智能化质检手段（图 4），对家宽装维质量进行跟踪监管，自动识别安装结果是否合格，提升质检效率，减少人工成本，改善安装质量，提升家客业务支撑水平，最终达到降本、增效、提质的愿景目标。

图 4　家宽装维图像质检智能作业流程

以实际应用中效果较好的尾纤安装质检为例，传统的人工图像质检存在检测准确率低且人力成本高的问题，本文采用基于深度学习的图像识别技术，基于 VGG19 模型构建了相应的检测算法模块（图 5）。

图 5 基于 VGG19 的尾纤质检基本算法

基于样本图像（66 张尾纤布放照片，典型照片如图 6），开展二分类标注：规范与整洁，训练图 5 所示的 VGG19 模型；同时，预留了 10 张照片用于测试验证，图 6 右是随机挑选的验证图片，置信度为 0.954528，方法有效。

图 6 尾纤施工工艺对比（左：标准；中：凌乱；右：验证）

3.3 全景图像三维测量

三维全景是基于全景图像的真实场景虚拟现实技术，将相机环一周度拍摄的一组或多组照片拼接成一个全景图像，也可通过一次拍摄实现成像。通过拼接，经过一系列数学计算可以得到其球形全景的立方体投影图，最后通过计算机技术实现全方位互动式观看的真实场景还原展示（图 7）。

图 7 基于便携式全景设备的三维展示与测量系统

本文设计并实现了一种基于 SIFT 算法的三维全景图像测量方案（图 8），基于该方案可以开展机房内设施、天面设施等场景的三维空间距离测量（图 9），三种试验场景下的验证误差均在 5%以内（测量结果见图 9 右上）。

图 8 基于 SIFT 算法和全景照片的三维距离测量方案

图 9 基于 SIFT 算法和全景图像的三维测量（左：机柜高度；中：地砖尺寸；右：抱杆高度）

3.4 天线数量目标检测

天面是 5G 网络建设的重要资源，也制约到 5G 工程建设进展。在日常勘测、优化及维护工作中，往往积累了大量的天面历史影响资料；通过引入图像检测算法，可以探索天面资源的自动核查方法。

本文应用 Mask R-CNN 算法设计了基于天面照片的天线数量检测算法：首先，图像经过残差网络（ResNet101）和特征金字塔网络（FPN）结构，提取多层特征图，然后经过区域选取网络（RPN）微调特征图对应锚框（Anchor）的偏移量并且将锚框划分为前景还是背景，之后将生成的感兴趣区域（ROI）经过排序，输出相同大小的感兴趣区域。在训练阶段（图 8），分类和掩膜两个分支同时进行，其中分类包括类别、置信度、边界框回归，掩膜分支则用于分割目标；在测试阶段（图 9），则是先经过分类分支，再经过掩膜分支。

图 10 天线数量检测训练模型

图 11 天线数量检测测试模型

本方案使用在所有的交并比（Intersection over Union，IOU）阈值的平均精度（AP）来评价在数据集中的表现（表 1）。验证结果表明：Mask R-CNN 算法有着较强的鲁棒性，可以有效解决天线数量检测任务（图 12）。

表 1 天线目标的检测结果

图 12 天线数量目标结果示例

4、结束语

计算机视觉是通信与信息系统领域一个方兴未艾的重要发展方向。本文系统总结了在通信工程领域开展的初步探索，介绍了所使用的关键技术、方案要点以及实践效果，未来将进一步推动相应研究成果在 5G 网络规划优化信息化系统中的固化与规模化应用，迎接 6G 数字孪生时代的加速到来。

参考文献

[1] Krizhevsky A , Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[C]// NIPS. Curran Associates Inc. 2012.

[2] Simonyan K , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer Science, 2014.

[3] He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[J]. 2015.

[4] Chu X , Zhang B , Xu R . MoGA: Searching Beyond MobileNetV3[J]. 2019.

[5] Wei Liu, Dragomir Anguelov, Dumitru Erhan,等 . SSD: Single Shot MultiBox Detector[C]// European Conference on Computer Vision. Springer International Publishing, 2016.

[6] Ren, Shaoqing, He, Kaiming, Girshick, Ross,等 . Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6):1137-1149.

[7] He Kaiming, Gkioxari Georgia, Dollar Piotr,等 . Mask R-CNN[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence:1-1.

陆南昌：工程师，硕士毕业于中山大学，现任职于中国移动通信集团广东有限公司无线优化中心，担任网优技术室主任，从事网络优化、新技术研究等工作，主要研究方向为 5G 应用、集中优化策略研究等。

刘吉宁：工程师，硕士毕业于暨南大学，现任职于中国移动通信集团广东有限公司无线优化中心，长期从事无线网规划管理、新技术研究等工作，主要研究方向为 4/5G 规划、优化策略研究等。

黄海晖：高级工程师，硕士毕业于西安交通大学，现任职于中国移动通信集团广东有限公司无线优化中心，担任网优副总经理。长期从事无线网络优化管理、新技术研究管理等工作。