在10月份九章智驾发布过一篇名为《一文读懂数据脱敏技术在智能汽车中的应用》的文章,该文提到,目前智能汽车行业内,车端需要脱敏的敏感数据范围仅限于车端采集到的视频及图像中的人脸和车牌信息。此外,在中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》(以下简称《方法》)中,也对功能要求、脱敏方法、结果评估等相关内容提出要求。
目前《方法》已正式发布,各家主机厂也针对此项要求纷纷做出回应。
业内一家名为江苏源驶科技有限公司的企业,已提前探索研究图像数据脱敏在智能汽车领域中的应用,并率先实现方案落地应用。
笔者近期与源驶科技的CEO周翔及副总经理李鹏进行了深入交流访谈,并整理出下文,以供读者参阅。
一、为何说图像数据脱敏如此重要?
随着L2级自动驾驶技术的不断发展,人机共驾成为了普遍现象,相机作为车外感知以及车内驾驶员监测的主要传感器,其产生的图像敏感数据越来越多,导致数据安全问题在智能汽车领域日益凸显。
一方面,车内外图像的隐私泄露问题严重。近两年,由于车端相机功能引起的数据安全事件屡屡出现,比如高合汽车曾被爆出“车车互联”功能之下,车主能看到陌生车主的行车记录仪画面;再比如特斯拉的车内相机所拍摄到的视频图像数据被黑客盗取。这些图像数据在未经车主同意前,就被随意采集和存储,存在严重的隐私泄露风险。
另一方面,主机厂对于图像数据的传输、处理等过程中存在不规范性。在相关规定尚未出台前,主机厂认为数据是属于自己的,自己可以肆意收集,因而在整个数据全生命周期中,没有做出任何敏感数据的保护措施。
上述问题促使智能汽车行业相关政策不断地被推出。
2021年7月,国信办、发改委、工信部、公安部、交通运输部联合发布了《汽车数据安全管理若干规定(试行)》(以下简称《若干规定》),明确了6类重要敏感数据,其中第四类就是“人脸信息、车牌信息等的车外视频、图像数据”。
2022年8月,中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》,明确了相关图像数据脱敏的技术要求与方法标准,这也是在《若干规定》的基础上,对图像数据脱敏做出了详细的技术标准规范。
那么,智能汽车发展仍处于早期阶段,而行业的强监管是否会与此相矛盾?
周翔说:“当前的监管趋严,提高了主机厂和Tier 1的成本,但数据监管对行业发展是有利的,尤其是针对现阶段L2以及L2+级别的自动驾驶技术,若没有数据监管,数据就会处于裸奔的状态,会产生很多风险。”
在相关政策推出后,主机厂提高了对数据脱敏的重视度。
李鹏提到,预计在往后的半年内,图像数据脱敏将处于SOR阶段(需求规范),主机厂会对供应商提出数据脱敏的相关要求,其中除了增量市场外,还包括一些存量市场。比如前期被迫关停的360哨兵功能/环视/行车记录仪等,也迫切需要供应商再次洽谈在相关功能加入脱敏需求。
二、图像数据脱敏技术在智能汽车中的应用
上文我们了解到图像数据脱敏在智能汽车领域中应用的重要性和迫切性后,那么,我们接着来看下,图像数据脱敏技术具体是如何应用在智能汽车领域?笔者将从5个维度来具体阐述这个问题,包括适用的数据范围、适用的数据要求、图像脱敏的方法、图像脱敏的执行、脱敏后的数据要求。
《若干规定》的第三条中提到:“重要敏感数据包括人脸、声音、车牌等的车外音视频数据,该条例只是针对车外的图像数据”,但随后出台的《方法》标准却又提到“适用于对车端采集的视频及图像中的人脸和车牌数据脱敏处理”,该标准并没有仅限于车外图像数据,也就是说,车内(人脸)和车外(人脸+车牌)的图像数据都需要脱敏。
在确定好适用的数据范围后,接下来的问题就是怎样的数据需要脱敏,对此,《方法》中已对数据格式及图像质量要求做了较为明确的规定。
首先,《方法》规定了车端数据处理设备应支持原始二进制数据进行脱敏,并且上传到云端的数据需要至少满足以下的格式要求。
图像文件格式:JPEG、JPEG2000、BMP、PNG中的任一种;
视频编解码格式:H.264、H.265、MPEG-4的任一种;
视频文件格式:mp4、 avi、 mov、 wmv、 3gp的任一种。
其次,《方法》也规定了人脸和车牌的图像质量要求,不仅包括人脸图像的分辨率、姿态、完整度、清晰度、图像RGB需要满足的强度,还包括车外车牌的图像分辨率、最低照度、几何失真、运动模糊下的可识别度。
图:人脸和车牌的图像质量要求
除此以外,若图像数据不能满足上述要求,就不需要做任何脱敏处理。
李鹏说:“图像数据脱敏技术跟自动驾驶技术是不太一样的,它主要取决于车牌和人脸的图像是否清晰,若图像都已经不清晰了,那其实已经不需要做脱敏处理了。比如高速场景下,前方的图像已经出现拖影现象了,也就降低了脱敏的要求,甚至不需要脱敏了。”
所以,图像数据脱敏技术的应用与具体的应用场景无关,比如高速或者城区,其技术性能主要是取决于相机性能的差异,比如感光度、动态性等。
在确定了适用的数据范围和数据要求后,图像脱敏具体需要什么样的技术方法?
《方法》指出,图像数据脱敏的主要方法有擦除、统一色块涂抹等,但不包括低像素化处理与打马赛克。从中可以解读出:
具体方法有擦除、统一色块涂抹等;
脱敏后的图像需要具备不可逆性——图像不能被还原。
虽然,某主机厂信息安全工程师提到,图像脱敏的技术难度本质上并不高,在其它领域已有相应的成熟应用,但车端的相机所采集的图像数据往往是处于动态的状态,这就需要引入一些相关技术,来定位每帧图像中的敏感区域。
周翔说:“以前的图像脱敏技术主要是使用目标跟踪,而现在SoC算力加强后,脱敏技术可以直接检测出敏感区域。”
李鹏也说:“脱敏算法在智能汽车上的应用,其本质上很像主动安全的感知功能,但是脱敏的工作会比原先主动安全的难度要小很多。”
看上去脱敏技术的门槛似乎并不高,但事实是否真是如此?
关于车端图像数据脱敏的技术难点,李鹏说:“目前图像脱敏技术主要是基于深度学习,技术强弱取决于用于训练模型的数据样本量的充足度和应用场景的多样性。”
总的来说,若要做好图像数据脱敏,关键还是要依赖于前期自动驾驶技术的经验积累,包括数据的积累、算法训练经验的积累等。
《方法》指出了图像数据脱敏的执行流程,包括图像数据的输入、预处理、敏感区域的定位、脱敏处理、后处理、图像数据的输出。
图:图像数据脱敏的流程(数据来源:《汽车传输视频及图像脱敏技术要求与方法》)
该执行流程主要是图像数据脱敏的流程,但图像数据脱敏在与自动驾驶技术相结合应用时,具体又是如何操作的?
针对这个问题,李鹏说:“图像数据脱敏并不会在自动驾驶的任何层面进行(比如感知、定位、决策、控制),由于脱敏算法可能会对自动驾驶算法造成时延的影响,所以数据只需要在向外部传输的时候才执行脱敏的动作。
“举例来说,在哨兵模式下,用户在查看后台数据时,数据需要在传输前就进行脱敏处理,所以用户是不会看到敏感信息的。本地存储数据可不做脱敏处理,但是在进行任何形式的向外传输前都会先脱敏。
“再比如,当车辆的多个视觉感应器检测到的环境数据差距过大时候,车端的数据就需要全部上传至云端进行重新训练,这个时候图像数据也需要脱敏处理。”
第一,脱敏后的图像应满足人眼无法识别,并且敏感区域无法被相关技术复原,比如基于深度学习的图像超分辨率重建或基于生成对抗网络的图像复原等技术。
第二,人脸或者车牌的交并比(IoU,注:交并比为产生的候选框与原标记框的交叠率,即它们的交集与并集的比值,完全重叠时,比值为1)应满足50%-75%。
第三,原视频中的每一帧图像在脱敏处理后,需要将其按照原视频的编码、帧率信息等转化为新的视频,并且转化后的视频格式必须与原格式保持一致。
三、图像数据脱敏在智能汽车中的挑战
目前,相机已经成为了自动驾驶技术解决方案中不可或缺的传感器,而随着车载相机性能的不断提升、种类也越来越多,一方面,相机的性能从百万级别像素到4K、8K等,造成了图像数据的清晰度越来越高;另一方面,相机的种类非常多样且复杂,包括车外的单目、双目、多目、环视等,以及车内的DMS、OMS等。
基于这些因素,图像数据脱敏会面临一些技术方面的挑战。
首先,各种相机的性能越高,也就意味着会造成更多高质量的图像数据,在清晰度上也更容易满足图像数据脱敏的要求,这就会带来大量的敏感数据。
其次,应用于各种场景的相机,由于对应功能需求不同,其图像数据脱敏所需要的技术方案也会所有差异,这就需要更深的场景理解能力和相应的深度学习能力。比如某些鱼眼相机的水平FOV非常大,可达270°(如应用于哨兵模式),它在获取到更多的敏感数据的同时,也需要对图像数据采取实时脱敏。
在工程化方面,图像数据脱敏最大的挑战在于脱敏算法的迁移难度,即如何将图像数据脱敏方案部署在不同的SoC平台上。
关于这个问题,以实际项目落地经验为例,李鹏说:“首先,大平台大算力的芯片容易做图像脱敏,而某些性能不足够的SoC芯片,算力非常有限,在保证原有系统业务正常运行的基础上,再去部署图像脱敏的算法,图像脱敏所分配到的算力相当有限,就会影响数据脱敏的效率。
“其次,现如今不同SoC芯片上的架构也存在差异,从而造成性能占用的差异比较大,比如某些SoC芯片是基于ARM的处理器,它可能会配置A53或者A55的核,而每一个处理器的性能也会不同,有些配置有GPU,而有些却没有。
“再者,不同主机厂对图像数据脱敏的需求也会不同——有些主机厂希望把数据脱敏部署在GPU上,这就会导致GPU的占用较大,而有些则希望GPU不被占用,从而希望把数据脱敏部署在CPU上。”
四、如何应对相应的挑战
面对上述的挑战,行业该如何去应对?随着图像数据脱敏日益迫切,各家数据厂商也会有着相应的应对策略,其中,一家图像数据脱敏厂商通过结合自身的特点及行业发展的现状,介绍了自己的应对策略。
至此,读者可能会好奇:源驶科技到底是一家怎么样的企业?
据源驶科技方面介绍,公司由华设设计集团股份有限公司(以下简称“华设集团”)与深圳佑驾创新科技有限公司(以下简称“MINIEYE”)共同出资筹建,旨在推动国内车路协同式自动驾驶产业发展,致力于成为以软硬件全栈式研发能力为核心的数字交通服务商。
那么,作为一家定位于数字交通服务商的企业,源驶科技为何会选择布局图像数据脱敏业务?
周翔说:“总的来说,首先这是行业和监管的趋势,公司响应了政府的相关号召,现在大众对于个人隐私保护的意识越来越强,监管部门和企业也意识到了这一点,我们的研发团队在图像数据脱敏的领域做了很多相关的技术储备,可以赋能行业内的其他企业。
“第二,当前主机厂在对外招标时,就要求Tier 1所提供产品需要具备图像数据脱敏技术。虽然部分主机厂有能力自研图像脱敏技术,但自研的时间和金钱成本相较于直接使用现成的解决方案产生的成本,就不一定具有优势。同时,法规不仅被强制应用于所有新车型,还覆盖了当前已上市的车型,即存量市场。源驶科技也即是抓住了这样一个市场契机。
“第三,公司凭借股东MINIEYE在车载行业的算法积累优势,有相对完备的技术支撑,可以完成图像数据脱敏业务。”
上文也提到,相机的性能提升带来了图像数据清晰度的提升,进而带来了敏感信息数量的增加,也使得图像脱敏的潜在需求增加了,这最终会降低脱敏的效率。举例来说,原先相机性能不佳的状况下,某些图像数据由于不够清晰,也就不存在脱敏的需求了,但相机性能增强后,高度清晰的图像可能会迫使对每帧图像进行脱敏。
面对这方面的挑战,李鹏以用户侧(车主)为例做了分析。他说:“用户在通过手机或者其它移动设备连上车辆时,车端会实时推送视频流和图像数据给用户,而这些可能就是8MP相机产生的图像数据,但是在实际数据传输过程中,数据会被做一定的压缩或裁剪,公司会在裁剪后的视频流上部署脱敏算法。这样既满足了用户对隐私安全的需求,也满足了用户实时查阅图像数据的需求。”
4.2.2 工程化方面的对策
对于脱敏算法在不同SoC平台之间移植的挑战,源驶科技是如何应对的?
李鹏说:“首先,公司对各个SoC的性能会有一定的了解,针对不同客户的需求来做评估,并做出定制化方案,比如360环视功能在部署数据脱敏算法时,客户会要求脱敏算法不占用GPU的性能,所以会将脱敏算法直接部署在CPU上运行;其次,在不影响原有业务的基础上,针对不同的SoC特性,公司会做合理的资源利用。比如,某些SoC平台拥有NPU加速单元,并可以流畅地运行脱敏算法,那就完全不需要去占用GPU或者其它硬件性能。”
若要能够自如地应对相应的挑战,自身的基本功也是必须要打磨的。
首先,源驶科技具备了什么样的技术体系?
周翔提到,源驶科技的整个体系来自于MINIEYE的技术架构,无论算法还是软硬件,都沿用了MINIEYE的成功经验。
从算法层面来看,MINIEYE自研的ThiNet(神经网络压缩架构)、FastNet(嵌入式神经网络加速库)、HardNet(神经网络架构IP)等神经网络,可以让公司快速积累Know-How的相关经验。
从软硬件层面来看,公司吸收了MINIEYE在ADAS和舱内感知的量产经验。
硬件方面,主要有商用车双预警ADAS产品和乘用车智能驾驶域控制器在东风、柳汽、陕汽、奇瑞、比亚迪等客户的量产经验;舱内软件方面则有在吉利、上汽、顺丰速运等客户的量产经验。
其次,在上述技术体系的支撑下,源驶科技形成了自己独特的优势,笔者总结了3个方面的优势。
4.3.1 技术及工程化方面的优势
(1)算法移植能力
算法移植能力可以帮助公司更好地将数据脱敏技术应用在不同平台的SoC芯片上,解决硬件差异所带来的工程化问题。
关于公司具备的算法移植能力,周翔说:“首先,算法若要更好地应用,就需要足够样本的数据量。在图像数据经验的积累上,源驶科技继承了MINIEYE积累的数据集,包含了多种类型的信息,这些数据都会导入进源驶科技的技术体系,帮助公司提升数据处理能力。
“再者,算法移植能力也需要对主流SoC芯片的硬件性能有一定的了解。MINIEYE积累的高通、Xilinx、TI等主流平台的开发经验,以及与地平线达成的战略级合作关系,这些都会为源驶科技的算法移植开发提供有力支撑。”
(2)图像脱敏速度
衡量图像数据脱敏的关键技术指标之一就是图像数据脱敏的速度,即脱敏算法每秒能够处理多少帧的图像数据,而它主要取决于图像识别算法能力和硬件性能的利用率。
李鹏说:“针对不同SoC芯片的特性,公司通过利用硬件性能的资源,尤其在一些不包含NPU和GPU的SoC芯片平台下,基本能保证在一个A53的核上做到每秒25帧的图像数据脱敏速度,能够满足行车记录仪和其他设备的实时脱敏需求。”
那么,每秒25帧的图像数据脱敏速度具体是一个什么样的行业水平?
李鹏继续说:“每秒25帧的脱敏速度属于行业内较为领先的水平,基本能保障客户在查阅手机视频流时,图像数据不存在掉帧或者卡顿的体验。虽然目前公司的脱敏速度能够实现大于这个数值,但用户的体验感上也不会存在差异化,不过,低于这个数值的话,用户就会遇到一些阅览的不流畅感。”
4.3.2 商务资源
4.3.3 政策理解能力
最后,在与源驶科技两位管理者的交流过程中,笔者深感到该公司对于政策动向的高度关注以及政策的解读非常深,这也会帮助公司在未来产品战略布局上,形成一定的预见性,有利于公司更快地打开市场。
一方面,源驶科技方面提到,公司参与编著了《方法》;另一方面,公司CEO周翔先生是中国汽车协会的大数据中心的特聘专家,曾多次参与国内多个数据安全相关的规范制定讨论。
五、未尽之语
人脸和车牌的图像脱敏只是一小步,未来在智能汽车领域内,图像敏感数据的定义范围或许还会继续扩大。
周翔说:“数据安全方面的监管或许会更加严厉,对于图像数据的采集内容,可能会不仅限于人脸和车牌,还会有一些环境数据,比如路端摄像头数据的脱敏。”
参考欧盟在2016年颁布的GDPR《通用数据保护条例》来看,李鹏说:“这是一个涵盖多种数据的条例,条例指出对于能够用于生成用户画像的信息,甚至标示牌、门店和商标等信息都会有一定的保护机制,相比于国内现行的规章制度来说,该条例要更加严厉。”
“再者,个人数据需要具备使用、销毁、保存等各个方面的权利,但当前在国内做得并不理想,主机厂仍需要以类似书面的形式给用户提供一种选项,比如是否授权主机厂使用某些信息,并且在协议内需要明确列明数据的采集与使用方式、数据的具体用途、协议解约的方式等关键信息。行业和监管部门需要一同找到数据安全和自动驾驶发展的平衡点,才能稳步推动科技的进步。”周翔提到。
未来,图像数据脱敏相关政策会往什么方向再细化?或许不久的将来,我们可以拭目以待。