加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
申请入驻 产业图谱

自动驾驶中视觉感知ISP调参综述及实证分析

01/06 10:11
321
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

本文作者为Valeo Vision Systems相关研发团队 Lucie Yahiaoui Jonathan Horgan Brian Deegan Senthil Yogamani Ciarán Hughes 和Patrick Denny,小明师兄翻译

摘要

图像质量在供人类观看的应用中是一个广为人知的概念,尤其在多媒体领域,而且在汽车领域其重要性也日益凸显。自动驾驶计算机视觉的兴起,使得图像质量对摄像头感知中诸如识别、定位及重建等任务的影响方面的研究备受关注。尽管计算机视觉中 “图像质量” 的定义可能并不明确,但明确的是图像信号处理流水线的配置是控制计算机视觉图像质量的关键因素。

本文兼具综述和观点阐述性质,并展示了一些有望助力未来研究的初步成果。因此,我们概述了图像信号处理器ISP)流水线是什么,描述了一些典型的汽车计算机视觉问题,并通过一些实验结果简要介绍了图像信号处理参数对计算机视觉性能的影响。

本文探讨了利用计算机视觉性能指标作为成本度量来自动调整 ISP 参数的优点,从而避开了明确界定计算机视觉中 “图像质量” 含义的必要。由于缺乏用于开展 ISP 调优实验的数据集,我们在视觉算法处理前应用了诸如锐化之类的代理算法。

我们使用经典算法(AKAZE 算法)以及一种用于行人检测的机器学习算法进行了这些实验。我们获得了令人鼓舞的结果,例如通过调整锐化技术参数,行人检测准确率提高了 14%。我们希望这能鼓励创建此类数据集,以便对这些主题进行更系统的评估。

引言

图像和视频质量的基本概念在消费电子产品中已被充分理解,尤其在多媒体领域 [1],并且是标准化的主题 [2,3]。传统上,图像质量等同于 “感知质量” 和 “自然度”,或者说现实世界的再现忠实程度如何满足观看者的期望。多媒体内容压缩算法的发展推动了定义和测量感知图像及视频质量方面的诸多进展。在汽车领域,“高质量” 的含义并非那么简单明了,目前尚无单一明确的定义 [4,5]。而且视频对于两种截然不同的应用是必需的:向驾驶员展示(例如,后视和多摄像头环视监控)以及用于高级驾驶辅助系统的计算机视觉。在迈向自动驾驶平台的过程中,这一点尤为重要,因为摄像头系统是一种多样且关键的感知传感器,能够提供车辆周围环境的结构、语义和导航信息。因此,包括深度学习在内的计算机视觉算法性能有望较以往系统有显著提升。

最初,汽车环视鱼眼摄像头是辅助驾驶员的视觉系统的一部分。在自动驾驶应用中,此类摄像头对于近场监控正变得非常重要 [6]。这些不同的应用需要不同的场景特征以实现最佳性能。对一种应用而言构成 “高质量” 的概念不一定等同于对另一种应用的 “高质量” 概念。因此,尽管针对单色系统基于检测 / 定向 / 识别 / 辨认的约翰逊准则已有一些基础工作被提出 [7],并由 [8] 进一步阐述,但专门针对计算机视觉的图像质量方面的现有文献相较于针对人类视觉图像质量的文献较为稀少,这一点已被例如 [9,10] 所强调。这促使人们去探寻摄像头及处理系统中提升计算机视觉效率和性能的机会。

将来自图像传感器的原始信号转换为可观看的格式涉及多个步骤,如去马赛克、去噪和伽马控制等,这些统称为图像信号处理(ISP)。ISP 通常由硬件引擎完成,这些硬件引擎要么位于传感器内部,要么作为独立芯片,要么集成在主片上系统(SoC)内。由于图像分辨率、位深、帧率、曝光次数(高动态范围,HDR)以及处理步骤数量等因素驱动的处理任务量巨大,专用硬件是必需的。例如,大多数彩色图像传感器采用拜耳彩色滤光片,为了获得可用 / 可观看的图像(例如全 RGB 或 YUV 图像),在去马赛克这一过程中进行去拜耳处理是必要的。然而,ISP 的若干步骤旨在为观看应用的终端用户提供高度静态的视觉性能,例如在传统的环视应用中。对于基于计算机视觉的应用而言,这可能是不必要的,甚至会适得其反。

计算机视觉研究人员,尤其是学术界的人员,通常使用公开可用的数据进行开发、训练和验证,因为定制数据获取难度大且成本高。硬件设置通常由现成的成像系统构成,其板载 ISP 可重新配置性很低甚至没有,并且通过 USB 或以太网接口来捕获 YUV 或 RGB 图像。因此,并不总是能够捕获到原始的 ISP 处理前的图像数据。这通常使得计算机视觉研究人员无奈地忽略了 ISP 的影响。然而,ISP 很可能对计算机视觉算法性能有着非常重大的影响。这对于自动驾驶应用尤为关键,因为在这类应用中必须使传感器和算法的性能最大化。

在本文中,通过对 ISP 领域、汽车计算机视觉以及自动调优方面进行综述,我们旨在探讨使用计算机视觉性能成本度量来自动调整 ISP 参数的优点。通过在视觉算法处理前使用诸如锐化之类的 ISP 代理算法,我们提供了一些证据来支持这是一个重要主题的观点。除了解释该主题的重要性之外,另一个目标是鼓励研究界创建数据集,以便对这些主题进行更系统的评估,这样就能彻底研究 ISP 链条中每个组件对计算机视觉的影响的所有细节。本文其余部分结构如下:第 2 节简要概述 ISP 处理模块、ISP 调优以及计算机视觉算法。由于它们属于跨学科主题,这将为这些领域之一的专业人员提供必要的背景知识。第 3 节展示初步结果并进行分析,同时使用了经典计算机视觉算法(AKAZE 算法)以及一种用于行人检测的机器学习算法。第 4 节讨论调优算法和双 ISP 流水线,这是一种硬件选项,能够在不冲突的情况下针对计算机视觉和人类观看应用对 ISP 进行特定的调优。最后,第 5 节对本文进行总结并得出结论。本文在作者之前的会议论文 基础上进行了大幅扩展。

背景

在此我们提供一些关于 ISP 架构和计算机视觉的背景知识,目的是让读者具备足够的背景知识来理解本文的其余部分。

2.1. ISP 影响及调优的相关工作

现代汽车机器视觉系统的发展并非一帆风顺。从本质上讲,汽车摄像头走了两条截然不同的路线,一条是向用户提供图像,另一条是为诸如高级驾驶辅助系统(ADAS)之类的应用提供机器视觉输入。原始设备制造商(OEM)的需求导致这两条路径融合,因为他们期望同一摄像头系统能够兼顾这两方面。这意味着不同系统的关键性能指标(KPI)汇聚到了一个通用平台上。这带来了诸多挑战,因为这将属于心理物理学领域的视觉图像质量性能指标与传统的计算机视觉关键性能指标结合在了一起。

汽车领域视觉关键性能指标的作用及发展在其他文献中已有阐述,但视觉感知的语义并不容易简单阐释,于是就有了 “图像质量应该是 FUN” 这一准则,其中 FUN 是保真度(Fidelity)、实用性(Utility)和自然度(Naturalness)的首字母缩写,因为在与人类用户打交道时,这三类是最常被提及的。保真度通常通过测量成像系统的调制传递函数(MTF)来体现,实用性通过分辨与观看者相关物体的能力来体现,自然度则通过向观看者提供直观的世界视觉呈现的能力来体现。

视觉关键性能指标经历了三个不同步骤的循环发展。首先,传统的组件级指标被应用于相应组件的信号;本质上是借鉴了传统光学和电子学中的测量方法。这些指标包括镜头系统的调制传递函数(MTF)以及传感器信号的信噪比。然而,这些指标仅能针对极端值提供关于图像质量的直观判断(例如,高 MTF50 意味着图像很清晰,低 MTF50 意味着图像模糊);它们在组件选择方面表现良好,但在中期视觉评估中作用不佳(例如)。第二种方法是创建复合关键性能指标,它们是输入图像中简单特征的多元函数。这些指标借鉴了传统特征检测或图像压缩指标方面的研究成果 。它们包括通用质量指数 、结构相似性(SSIM)、多尺度结构相似性(MS-SSIM)、信息保真度准则(IFC)、视觉信息保真度(VIF)、视觉信噪比(VSNR)、特征相似性(FSIM以及显著加权质量指标。“无参考” 技术在评估图像时无需无畸变的参考图像,在实时系统中更受青睐,但也面临着许多与参考技术相同的问题,这些问题阻碍了对指标测量结果的通用解释。

第三种方法是以科学实施的评审团测试形式进行视觉心理物理学测试 。出现这种情况有诸多原因。传统的组件关键性能指标和多元函数未能充分解决场景的多样性问题,也未能妥善处理平衡 ISP 各效应时固有的权衡问题,所以再次有必要让人类来查看图像并做出判断。为了减少或消除潜在干扰变量的影响,传统的视觉心理物理学测试特意设置了严格受限的测试环境,而更通用的自动化视觉心理物理学测量尝试同样受到高度人为限制,即便如此,相关性也很差 。然而,这与汽车成像系统的普遍期望恰恰相反,汽车成像系统所经历的场景内容多样性在所有成像应用中是最高的,因此必须考虑利用汽车场景中物体对观察者预期显著性的自动化方法 。

计算机视觉算法对图像质量关键性能指标的敏感性最近得到了凸显,在汽车场景中 “性能会因几乎难以察觉的变化而急剧下降”,而且即使故意改变单个像素也可能引发分类问题 。

与我们打算开展的工作最接近的论文是。该论文的目的是研究 ISP 流水线在计算机视觉(传统计算机视觉和卷积神经网络)中的作用,以寻找减少计算量和节能的机会(创建计算机视觉 ISP 模式)。然而,他们的调优方法是通过禁用流水线的某些阶段,而非调整参数。他们提出了一些相当重要的观点:(1)对于他们所选用的算法,在针对计算机视觉时,大多数传统 ISP 阶段是不必要的。

在他们测试的所有应用中,除了一个应用外,只有两个阶段对视觉精度有显著影响,即去马赛克和伽马压缩。(2)他们的图像传感器可以通过用对数量化取代线性模数转换(ADC)量化,将位宽从 12 位降低到 5 位,同时保持相同的任务性能水平。然而,这项工作存在一些局限性。他们对为经过 ISP 处理的图像而设计的计算机视觉算法进行黑箱比较。如果图像未经 ISP 处理,算法就必须进行适当调整。例如,对于像尺度不变特征变换(SIFT)[34] 这样的拓扑算子,在有无去马赛克处理的情况下运行是并非最优选择。标准算子并不适用于拜耳模式图像。同样,在没有伽马压缩的情况下,算子也可以进行调整以应对这种情况。

最近,论文  展示了如何利用模拟来理解不同摄像头架构的影响。他们分析了摄像头 ISP 对神经网络性能及其对曝光变化的适应能力的影响。他们比较了两种卷积神经网络(SSD 和 RFCN)在检测方面的性能。每种网络都使用以下类型的数据之一进行训练和测试:原始数据、线性数据或 sRGB 数据。他们的结果表明,使用一种类型图像对网络进行训练,在其他摄像头设置下不会产生相同的结果。他们得出的结论是,最佳方法是共同设计摄像头和网络。

2.2. ISP 架构概述

ISP 是一个处理模块,它将原始数字图像转换为适用于给定应用的可用图像(通常是用于观看的彩色图像)。这种转换相当复杂,包含多个离散的处理模块,这些模块根据 ISP 的不同可以按不同顺序排列。图 1 展示了一个示例图像处理模块。每个 ISP 都有其自身独特的特点,但几乎所有的 ISP 都具备相同的基本模块和处理流水线。以下是从对计算机视觉算法影响的角度对图 1 中所标识的每个功能模块的简要描述。

图 1. 典型的图像信号处理器(ISP)流水线

镜头阴影校正 —— 校正图像边缘处亮度和色彩的不均匀性。对于鱼眼镜头而言,这一点尤为关键,因为镜头透光率的特性会使光线强度在图像边缘处出现明显衰减。镜头阴影校正还用于校正色彩阴影效应。当白光穿过镜头时,折射程度会因光的波长不同而变化。其结果是,如果不进行校正,鱼眼图像的中心通常会呈现偏红的色调,而图像边缘则会呈现青色调。若不加以校正,整个图像就会出现不同程度的色调变化。这也会影响自动白平衡(AWB)算法的性能。任何以色彩作为输入的检测算法都会受到更严重的负面影响。镜头阴影校正通过对镜头光学特性进行表征,并应用空间变化的数字校正来实现。但这可能会产生增加图像边缘噪声的副作用,进而影响机器视觉性能。

自动白平衡 —— 校正环境光照条件下的色温,以保持色彩恒常性(即无论照亮场景的光的光谱如何,灰色物体都呈现灰色。自动白平衡统计数据根据输入图像进行计算,然后对红、绿、蓝色彩通道应用数字增益,以校正因环境光照导致的偏色。对于任何以色彩作为输入的机器视觉算法来说,准确的自动白平衡都至关重要。车道标线检测尤其容易受到自动白平衡不准确的影响。例如,在钠蒸汽路灯照明下区分黄色和白色车道标线就是一个极具挑战性的应用场景。其他算法,包括交通标志和交通信号灯识别,也会受到自动白平衡性能的影响。自动白平衡就是图像自然度和实用性之间可能需要权衡的一个例子。

以钠蒸汽灯照明的夜景为例,钠蒸汽灯有多种类型,但其色温都相当低,在人类观察者看来呈现橙色或红色。通常,对于供人类观看的应用而言,理想的做法是调整相机的自动白平衡响应,使其尽可能符合人类观察者的期望。然而,对于机器视觉来说,这可能并非必要,甚至可能对机器视觉性能产生负面影响。针对机器视觉的白平衡的另一种方法可能是针对钠蒸汽灯照明进行校正,使图像 “呈现中性”,就好像是由 D65(标准光源)或类似光源照亮的一样。在这种情况下,图像可能看起来不自然,但显著物体,包括黄色道路标线,可能会更加突出。这甚至可能减少训练集的要求,即可能不再需要训练算法去检测车灯光下场景中的道路标线。据作者所知,目前还没有详细研究过这个问题的相关文献。

自动曝光控制 / 自动增益控制(AEC/AGC)—— 自动曝光控制 、自动增益控制 。自动曝光控制 / 自动增益控制模块控制图像传感器的曝光量和增益。下一帧图像的曝光量和增益是根据当前曝光量的加权平均值来计算的。这是 ISP 内唯一真正的反馈回路。准确的自动曝光控制 / 自动增益控制性能对机器视觉性能至关重要。曝光不足的图像会有较差的信噪比和对比度区分度,而曝光过度的图像则会在场景高光部分丢失信息。此外,根据应用的不同,可能需要考虑不同的曝光加权方案。例如,对于前照灯检测算法来说,让图像曝光不足以确保前照灯不会出现光晕可能是可以接受的。相反,如果主要关注阴影中物体的检测,那么让图像的大部分区域曝光过度以确保捕捉到阴影中的细节可能是可以接受的。高动态范围(HDR)成像的目标是确保同时捕捉到高光和阴影部分。鉴于汽车应用场景,运动模糊也是需要考虑的一个因素。根据感知任务的不同,让图像曝光不足并通过数字方式提升亮度水平以避免运动模糊伪影可能是可以接受的。

坏点校正 —— 校正图像传感器上的坏点。图像传感器中的坏点数量会随着传感器的使用时长增加而增多。正是因为有坏点校正算法,所以这些坏点通常在数字图像中是看不到的。坏点有可能影响机器视觉算法的性能。苏等人的研究表明,仅通过对单个像素进行对抗性扰动,平均有 97.47% 的置信度能将所测试的 70.97% 的自然场景扰动到至少一个目标类别。诚然,这个极端的例子展示了坏点影响机器视觉性能的可能性,类似的脆弱性在其他文献中也有阐述。

降噪 —— 降低图像中的噪声表现。这通常是通过使用二维噪声滤波来实现的。在大多数 ISP 中,在去除噪声和保留纹理之间存在权衡。过度降噪可能会显著提高信噪比,但会牺牲高频信息。二维低通滤波是许多计算机视觉算法流水线中的预处理步骤,但过度降噪导致有效高频数据被去除,会影响图像梯度的检测。图像梯度是特征检测器、线条检测以及光流等操作的关键要求,是大多数计算机视觉算法流水线的重要组成部分。

色彩插值 —— 将传感器通常使用拜耳彩色滤光片阵列(CFA)采集到的原始色彩数据转换为彩色 RGB 图像。这个过程也被称为去马赛克 。去马赛克是任何 ISP 中最关键的操作之一。调制传递函数(MTF)和图像噪声都会直接受到去马赛克操作的影响。去马赛克还可能引入许多图像伪影。例如,边缘处的拉链 / 阶梯状伪影以及高频图案中的混叠 / 假色现象。通过使用更复杂的去马赛克滤波器,许多这类影响可以得到缓解。通常在计算负荷和图像质量之间存在权衡。噪声的引入,特别是水平和垂直边缘噪声,可能导致基于强垂直和水平图像梯度的特征提取出现错误。重复的边缘效应,如阶梯状伪影,可能导致错误的特征提取和匹配,以及沿边缘而不是沿运动方向产生错误的光流。

边缘增强 —— 这一处理模块用于增强边缘,通常是为了让图像在人类观察者看来更加清晰。然而,过度的边缘增强可能会引入诸如高对比度边缘周围出现光晕之类的伪影,还会加重噪声。过度的边缘增强会通过增强噪声以及在锐化边缘的过冲和下冲处人为制造重复边缘,对基于梯度的算法产生负面影响。

色彩校正矩阵 —— 校正相邻传感器像素之间的串扰。串扰是一种像素级现象,即一个像素的色彩信息会污染相邻像素。它本质上可以是光学或电学方面的问题。需要进行色彩校正来修正与串扰相关的色彩不准确问题。在某些情况下,色彩校正也可能引入或加剧色彩噪声。当色调之间存在明显不匹配,需要进行高强度数字校正时,就会出现这种情况。噪声增加以及色彩不准确都有可能对机器视觉性能产生负面影响。

亮度 / 对比度调整 —— 该模块的具体实现细节差异很大,但关键目标是增强图像对比度并对图像亮度进行数字调整。典型的对比度增强算法包括直方图拉伸、直方图均衡化、局部和全局对比度调整算法(例如,对比度受限的自适应直方图均衡化,CLAHE)等。对比度增强可以改善不同灰度级之间的对比度区分度。这对机器视觉性能可能是有利的。然而,过度的对比度增强会加重噪声并降低信噪比,从而对计算机视觉性能产生负面影响。针对人类视觉和机器视觉目的的亮度和对比度调节可能是相互对立的。

伽马校正 —— 伽马校正模块对不同光照水平下的对比度进行不同的调整,以增强特征的显著性。伽马校正对于观看应用至关重要。如果没有伽马校正,就需要更高的图像位深度来避免可见的色调分离现象。对于机器视觉应用而言,其影响不太明确。阴影细节的对比度会被增强,但高光部分的对比度会被压缩。例如,这可能会对交通标志识别或前照灯检测算法产生潜在的不利影响。

2.3. 用于汽车应用的计算机视觉算法

2.3.1. 经典计算机视觉

当我们提及经典计算机视觉(CV)时,指的是在不使用深度学习方法的情况下,实现人类视觉系统通常能够执行的任务自动化的过程。深度学习(将在下一节介绍)可被视为现代计算机视觉中的一个子领域,因为它正迅速成为几乎所有计算机视觉任务的前沿技术。

在自动驾驶的情况下,计算机视觉的多个子领域被用于提取车辆周围环境的信息,包括重建、物体识别、三维姿态估计、机器学习以及运动估计。以下部分简要介绍两种常用于自动驾驶功能的传统计算机视觉技术,即三维重建和道路标线检测,这些是计算机视觉用于自动驾驶功能的示例,旨在说明可靠且准确的计算机视觉输出的重要性,进而体现所处理图像的重要性。关于用于汽车应用的计算机视觉算法的更详细综述见文献 。

三维重建 —— 三维重建是指旨在获取传感器视场内环境空间结构表示的一组算法。在自动驾驶背景下,它是计算机视觉用于创建车辆周围环境度量地图的主要机制。相机的深度感知技术主要有两种类型:即立体视觉和单目视觉 ,立体相机相对于单目系统的主要优势在于即使相机不移动也能感知深度,而单目视觉因成本较低而颇具吸引力。立体视觉通过解决每个像素的对应问题来工作,从而实现从左相机图像到右相机图像的像素位置视差映射。距离与对应世界点距相机的实际距离成正比。利用已知的相机校准参数和基线,可以确定每个像素在现实世界中的三维位置。图 2 展示了一个稀疏三维重建的示例。

单目系统也具备感知深度的能力,不过,需要相机运动来为场景重建创建基线。这种场景重建方法被称为运动恢复结构(SFM)。图像中的像素通过稀疏或密集光流或者特征提取与匹配技术,从一帧追踪或匹配到下一帧。这是发生在图像域的主要步骤,通常由诸如尺度不变特征变换(SIFT)、加速鲁棒特征(AKAZE)等特征匹配算法来完成 ,而这些算法将是我们评估其对图像信号处理器(ISP)影响的主要算法之一。经过处理的帧之间相机的计算运动以及相机校准,被用于对对应点的世界位置进行投影和三角测量。光束法平差是一种常用的方法,它根据一个最优性准则,同时对场景中估计出的三维位置以及相机的相对运动进行优化,该准则涉及所有点的相应图像投影。单目深度问题已经在教科书里被讨论很长时间了 。

道路标线检测 —— 在自动驾驶中,道路标线检测自然是任何传感系统的一个关键组成部分。车道边界检测(示例见图 3)在汽车计算机视觉行业已被充分理解,它属于最早出现的汽车计算机视觉产品之一,不过,鉴于近期自动驾驶的发展背景,它仍是活跃的研究课题 。或许不那么明显但同样重要的是自动泊车系统中停车标线的检测。在视觉方面,车道标线检测可以通过图像俯视图校正、边缘提取以及霍夫空间分析来检测标线及标线对。图 4 给出了采用类似方法得出的结果示例,该示例是使用水平视场角为 190° 的停车摄像头采集的数据。同一批作者还提出了一种不同的方法,该方法基于手动确定的种子点输入,随后应用结构分析技术来提取停车位。或者,文献中提出了一种基于预训练模型的方法,该方法基于方向梯度直方图(HOG)和局部二值模式(LBP)特征,并应用线性支持向量机(SVM)来构建分类模型。无论采用何种具体方法,很明确的一点是,从高速公路驾驶到泊车,道路标线检测对于一个完整的自动驾驶系统来说都是必不可少的。

2.3.2.深度学习

在过去的5年里,计算机视觉技术迅速发展,以深度学习,特别是卷积神经网络(CNN)是其核心。cnn已经大幅提高了目标检测的准确性,从而提高了对自动驾驶的感知能力。它还通过语义分割实现了密集的像素分类,这在之前是不可行的。此外,cnn在几何视觉算法如光流、移动目标检测、运动结构、重新定位、污染检测[61]和联合多任务模型等方面取得了最先进的结果。CNN的快速进展使得硬件制造商包括了一个定制的硬件,以提供超过每秒10个Tera操作的高吞吐量(TOPS)。此外,下一代硬件将有密集的光流和立体声硬件加速器,以实现对移动和静态物体的通用检测。

语义图像分割在深度学习方面取得了巨大的进展。语义分割的目标是将图像分割成有意义的部分。它已被用于机器人技术、医疗应用、增强现实和最显著的自动驾驶。图5展示了在自动驾驶设置中的语义分割输出的一个示例。所开发的工作主要有三个子类别。第一个使用补丁式训练来产生最终的分类。第二个子类主要关注像素级分类的端到端学习。它始于在中开发完全卷积网络的工作。最后,在中的工作主要集中在多尺度语义分割上。

如前文所述,几何计算机视觉任务是自动驾驶(AD)系统的重要组成部分。具体而言,我们指的是多视图几何算法,它能从多幅图像中估算相对运动和深度。自动驾驶的视觉感知深受这些几何应用(如光流 ]、运动恢复结构 、视觉里程计、同时定位与地图构建(SLAM))精度的影响。几十年来,计算机视觉领域一直在深入研究使用经典方法来实现这些算法。然而,基于深度学习的方法在这些算法中开始崭露头角。深度学习在目标检测和分割方面发挥了重要作用,并且已成为自动驾驶的一种成熟解决方案。近来,仅通过使用卷积神经网络(CNN)模型而不结合几何结构,深度学习就已成为诸如光流和深度估算等特定任务的前沿方法。也有人尝试将 CNN 用于视觉 SLAM、视觉里程计和校准。运动估计涵盖了密集光流估计和运动物体分割。图 6 展示了一种用于计算密集光流的几何深度学习算法。深度估计是自动驾驶中的一项关键算法,用于相对于车辆对汽车周围识别出的物体进行定位,我们会研究有监督、无监督或半监督的方法。原则上,CNN 学习算法应该能够学习对算法关键性能指标(KPI)而言最优的必要变换。然而在实践中,有大量的经验证据表明,纳入已知的变换作为归纳偏置能提升性能。

2.4. 讨论

计算机视觉在车辆自动化中起着非常重要的作用,它为车辆提供大量环境信息,以便车辆做出至关重要的辅助决策,更重要的是做出关乎安全的关键决策。显然,对于基于传统方法和基于深度学习的功能而言,图像本身作为这些功能唯一的原始传感器输入,对于达到更高自动化水平所要求的鲁棒性、可用性和准确性至关重要。迈向更高车辆自动化水平的趋势正推动着所有计算机视觉功能的性能要求提升。无论是基于传统方法还是基于深度学习的计算机视觉功能,其像素级处理阶段都依赖于图像输入的保真度。无论采用何种方法从图像中提取特征级数据,无论是传统的特征提取还是编解码器神经网络中的编码器,只有当所提供的图像能准确呈现所拍摄的场景时,提取出的诸如点、边缘、角点、斑点或纹理等特征才是可靠的。如前文所述,图像生成的这种准确性可能与人类观察者所感知的视觉质量不一致。计算机视觉理想的图像表示形式是,能为所有场景结构(几何结构、纹理、颜色、反射率等)提供充足、一致且可重复的对比度,且不受光照、温度、环境条件以及场景结构的影响,然而,由于存在大量无法测量、难以建模或在当今成像硬件上无法准确重现的系统及场景变量,这一目标无法实现。一些在像素层面影响特征提取的重要图像特性包括图像压缩、模糊 / 锐化、对比度、噪声、色彩压缩,本研究对其中部分特性进行了探究。虽然这些图像特性并非完全由图像信号处理器(ISP)控制,但它却对这些特性在生成图像中的存在情况、权重以及影响有着重大影响。尽管近期有研究探讨了其中部分图像特性对计算机视觉性能的影响 ,也有其他研究提出了针对移动应用进行图像信号处理器调优或适配的可能性 ,但针对汽车应用的影响及相关问题的研究却寥寥无几(如果有的话)。

图像处理参数对计算机视觉算法影响的实证分析

在典型的高级驾驶辅助系统(ADAS)或使用环视高视场角摄像头的自动驾驶应用中,单个图像信号处理器(ISP)会同时用于人类视觉(HV)和计算机视觉(CV)功能。所生成原始图像的信号处理主要是由环视系统的人类视觉质量驱动的。在计算机视觉或深度学习应用开发完成后对图像信号处理器(ISP)流水线进行调优,很可能会对算法性能产生不利影响,因为算法性能并非优化循环的一部分。例如,所有算法都可能会受到因调整而导致的信噪比下降的影响。几何视觉算法本身对图像信号处理器(ISP)的预处理变化较为敏感,因为像特征提取这类像素级操作通常依赖于固定的、静态调优的核尺寸和参数以及固定的显著度阈值。对于深度学习算法而言,只要其模型是通过大量不同的训练样本进行训练的,它们就会更具鲁棒性。例如,在文献 [84] 中,作者观察到不同深度神经网络架构在模糊和噪声条件下性能会下降,而对对比度和 JPEG 压缩则具有一定的抗性。随着为辅助自动驾驶而推动视觉感知改进以及集成图像信号处理器(ISP)的片上系统(SoC)的推出,现在已经可以实现用于人类视觉和计算机视觉的双图像信号处理器(ISP)流水线了。如前文所述,原始图像由图像传感器生成。为了能被设备查看,原始数据必须经过图像信号处理器(ISP)处理(见图 7)。

图 7. 流水线概述。影响计算机视觉(CV)性能的关键图像信号处理器(ISP)模块已用粗体标记。

3.1. 总体方法与测试设置

3.1.1. 测试设置

本文收集并拓展了作者先前在出版物 [11,86] 中呈现的研究结果。它主要聚焦于从像素级处理角度获得的有关锐化和对比度方面的结果,并展示了对一个行人检测(PD)算法流水线关键性能指标(KPI)影响的初步结果,该流水线先通过 AdaBoost 算法生成候选对象,随后利用一个小型的基于卷积神经网络(CNN)的方法对候选对象进行验证。

锐化和对比度是典型的图像信号处理器(ISP)处理模块,相较于其他参数,它们更多地受主观经验驱动,而非基于应用的客观适配性。由于目前针对计算机视觉的图像信号处理器(ISP)调优是一个被忽视的主题,所以没有附带视觉关键性能指标(KPI)的原始图像数据集可用。本研究中使用的数据是通过安装在汽车上的鱼眼摄像头在内部进行记录的。视频 / 图像是在街道上的驾驶场景或停车状况下录制的,其中包含行人、汽车、交通及道路标志、标线等物体。需要注意的是,这些鱼眼图像并非原始图像,因此在测试前已经应用了基本的图像信号处理器(ISP)处理。由于缺乏图像信号处理器(ISP)处理前的图像,我们只能进行最基本的代理测试来 “模拟” 图像信号处理器(ISP)的某些模块(锐化和对比度)。

未来,我们将通过对图像信号处理器(ISP)进行调优,使用原始图像重新运行这些测试。像素级研究针对以下方面对原始图像和处理后的图像进行了比较:边缘检测(使用索贝尔滤波器)[87]、二值化及闭运算(形态学操作)[88]。通过查找 100 个最显著匹配点(依据其距离)上的内点,对特征提取的影响进行了研究。利用随机抽样一致性算法(RANSAC)计算两幅图像之间的单应性矩阵。该研究分别考察了图像信号处理器(ISP)对每个特征提取器的影响。这项像素级研究是在 100 多幅图像上进行的。在计算机视觉中,特征是图像中显著的部分(点、斑点、边缘等),它能减少待处理的数据量,聚焦于图像的相关部分,可能在时间维度上具有鲁棒性,并会由计算机视觉算法流水线的下一阶段做进一步处理。本研究中使用的特征描述符 / 检测器对均匀缩放、方向及光照具有不变性 [47]:尺度不变特征变换(SIFT)[34]、加速稳健特征(SURF)[89]、定向 FAST 和旋转 BRIEF(ORB)[90] 以及加速鲁棒特征(AKAZE)[91,92]。总共在 6 帧图像(第 n 帧…… 第 n + 5 帧)中提取特征,并在第 n 帧与序列中后续各帧(第 n + 1 帧到第 n + 5 帧)之间进行特征匹配(见图 8)。之所以选择前面提到的这些算法(边缘检测、二值化、闭运算以及特征描述符 / 检测器),是因为它们在计算机视觉和深度学习算法中被广泛使用。

对于关键性能指标(KPI)影响的分析,我们使用了一个包含 20 个视频的样本集进行测试。在所有视频上都运行了一个典型的行人检测(PD)算法。该算法依据光照水平、姿态、对比度等因素,可检测出 8 米范围内的行人,并在检测到的行人周围绘制边界框。用于量化影响的指标是行业内常用的一个关键性能指标(KPI)。我们的关键性能指标(KPI)度量标准是标注的边界框与检测到的边界框之间的交并比(IOU)。交并比(IOU)越大,表明准确率越高,当交并比(IOU)高于针对特定物体实例设定的阈值时,则判定为真阳性。

图 8. 基于定向 FAST 和旋转 BRIEF(ORB)的特征匹配示意图

3.1.2. 锐化

为什么在观看应用中要使用锐化呢?人类视觉系统对图像中的边缘和精细细节高度敏感,并且善于通过调整来区分对比度不同的线条。边缘和细节主要存在于高频部分。然而,相机是由有限数量的像素构成的,这意味着在一幅图像中,只有有限频率的数据能够被充分捕获并呈现出来。在图像中,物体之间的边界之所以能被察觉,是因为存在强度变化(强度变化越剧烈,图像就越清晰)。相邻像素之间的强度变化与图像的导数(空间微分)有关。锐化被广泛用于对模糊图像进行后处理,通过增强强度变化的幅度来实现。增大暗区和亮区之间的差异能够突出边缘。在广角视场(FOV)镜头图像中,锐化可能是有益的,因为它可以对光学传递函数(OTF)起到补偿作用。在这种情况下,图像边缘部分分辨率会降低,而锐化可以改善这一情况。

所采用的技术:使用了两种技术来锐化图像。这两种技术都应用了不同的参数。第一种技术是使用拉普拉斯滤波器来增强高频区域中包含的精细细节。这些滤波器核的设计目的是相对于原始像素提高中心像素的亮度。拉普拉斯算子(L4 和 L8)是对图像二阶空间导数的二维等距度量:

使用的第二种技术是透明掩蔽(USM)。它使用原始图像的一个未锐化(模糊的)负图像掩模,通过每像素加权和与正原始图像相结合,以创建一个锐化版本。在这里,我们使用一组不同大小的高斯核(3×3,9×9和19×19)来创建模糊图像,并对模糊图像使用0.5的权重。图9(左图:拉普拉斯式,右图USM)显示了过滤器的应用。

图9.锐化方法|左:使用拉普拉斯滤波器/右:使用USM

视觉分析:这两种技术已经应用于图像。所有输出更清晰,真空度增强,因为原始模糊似乎被删除。从视觉的角度来看,可以观察到用拉普拉斯滤波器锐化的图像比用USM锐化的图像噪声更大。每次处理后出现,但在拉普拉斯图像中更明显。在边缘检测方面,用拉普拉斯算子锐化的图像中的噪声在某些情况下被检测为边缘,这与USM产生的“晕”伪影相反,因为它们不够强,不能被检测为边缘。通过二值化得到的结果与之前的观察结果相似,因为原始的二值化图像与超二值化图像的锐化图像之间没有很大的差异。用拉普拉斯滤波器锐化的图像的噪声是明显的。由于对二值化图像进行形态学闭合操作,也得出了类似的结论。(视觉差异:图10)。

图 10. 采用不同参数设置锐化后的图像示例

通过观察特征检测器给出的结果可以发现,锐化对特征检测有影响。将原始图像与经拉普拉斯滤波生成的图像进行匹配,内点的占比总是更低。我们的测试结果表明,高反差保留(USM)方法对性能可能会产生正向或负向的影响(见图 11)。

定量分析:如前文所述,已针对 20 个视频样本集计算了关键性能指标(KPI)值。表 1 以及图 12 中的受试者工作特征(ROC)曲线展示了两种锐化技术所获得的结果。通过对比未处理视频和经过锐化处理的视频之间的关键性能指标(KPI)值,可以观察到拉普拉斯滤波器提升了关键性能指标(KPI)值:在每帧误报数(FP)与原始测试值大致相同的情况下,拉普拉斯 8(Lap8)提升了 14.43%,拉普拉斯 4(Lap4)提升了 7.35%。用于高反差保留的三种配置则得出了相反的结果(真阳性百分比更低)。从视觉上看,与会出现大量噪声和光晕伪影的拉普拉斯滤波相比,高反差保留技术生成的图像效果更好。这凸显了在视觉上对人类视觉有吸引力的东西,对计算机视觉算法而言未必是好的(见图 13)。

图11.根据SIFT、SURF、ORB和AKAZE的帧和锐化技术的倾斜百分比

表1。在使用拉普拉斯滤波器或非锐化掩蔽(USM)或无滤波器(原始)进行锐化后,由PD算法给出的KPI(%)。TP =真阳性,FP =假阳性

图 12. 受试者工作特征(ROC)曲线,展示了所测试的 5 种配置以及对原始图像进行测试时每帧的真阳性率(TP 率)与误报数(FP)情况

图 13. 锐化后的图像:(左:拉普拉斯 8(Lap8);右:高反差保留 9(USM9))。当行人检测(PD)算法检测到行人时,会绘制一个绿色的边界框(其他所有线条均用于调试)

3.1.3. 对比度

为什么在观看应用中要使用对比度呢?在对现实世界的视觉感知中,对比度是由同一视野内物体的亮度和颜色差异所决定的。人类视觉系统能够在光照变化的情况下以相似的方式感知世界,因为它对对比度变化比对绝对亮度更为敏感。对比度增强在摄影中是一个重要工具,因为它可用于创建引人注目的图像,并将观看者的注意力引导到某个物体上。

所采用的技术:使用了两种技术来调整图像对比度,即直方图均衡化(HE)和对比度受限的自适应直方图均衡化(CLAHE)。直方图均衡化技术会影响图像的全局对比度,并使强度均匀分布,对于背景和前景中都有明暗区域的图像很有用。对比度受限的自适应直方图均衡化(CLAHE)技术是对自适应直方图均衡化(AHE)技术的一种改进,用于提高图像对比度。会针对图像的各个部分计算若干个直方图,然后对强度值进行重新分配。

结果:

视觉分析:可以观察到,所测试的这两种技术产生了不同的输出结果。直方图均衡化会使图像的强度发生变化。其结果是,一些高强度的细节(如云彩、某些边界等)会从图像中消失,而其他强度较低的区域则变得更易于分辨。

由于对比度受限的自适应直方图均衡化(CLAHE)是一种自适应方法,生成的图像显示原始图像中的暗区变得更暗,亮区变得更亮。图像似乎包含了更多细节。在边缘处会产生光晕伪影,并且噪声会随着分块大小以及所应用的裁剪限制值的增大而增加。看起来噪声与裁剪限制值大小成正比(裁剪限制值越大,图像中的噪声就越多)。通过观察边缘检测后的图像,可以发现直方图均衡化图像的索贝尔图像与原始图像非常相似,而在对比度受限的自适应直方图均衡化(CLAHE)图像中,噪声会被检测为边缘。原始图像和处理后图像之间的差异在二值化后会更加明显。直方图均衡化后的图像丢失了大量信息。然而,由于图像变亮了,现在有可能分辨并识别出源图像上不可见的特征。对比度受限的自适应直方图均衡化(CLAHE)方法产生的光晕伪影在二值化图像上清晰可见。闭运算图像会因所使用的对比度技术不同而受到不同影响。直方图均衡化图像在所有区域都变亮的情况下,信息丢失严重。当裁剪限制值和分块大小更大时,对比度受限的自适应直方图均衡化(CLAHE)图像会呈现出更多细节(见图 14)。

图14特征匹配测试得出了与锐化类似的结果

图 15 表明,对比度在大多数情况下对不同的特征检测器都有负面影响。只有使用尺度不变特征变换(SIFT)时的第 10 帧图像在调整对比度后内点占比更高。我们从该图中能得出的另一个结论是,在对比度调整后,加速鲁棒特征(AKAZE)测试中的部分内点占比与原始内点占比相等(取决于对比度算法的参数,其影响可能是负面的,也可能没有影响)。这些针对少量帧的初步结果表明,对比度增强对计算机视觉的影响并不像对人类视觉那样是积极的。必须在拥有目前尚不可得的原始标注数据的更大数据集上重复进行实验。在测试未处理的原始图像和处理后图像之间的特征匹配时,大多数情况下内点占比都会下降。图 15 展示了所获得的结果。

定量分析:表 2 以及图 16 中的受试者工作特征(ROC)曲线表明,对比度调整确实会对关键性能指标(KPI)值产生实际影响。这种影响对计算机视觉(CV)性能而言可能是正向的,也可能是负向的。使用 3 组参数进行的对比度受限的自适应直方图均衡化(CLAHE)测试得出了更高的真阳性百分比:对比度受限的自适应直方图均衡化(CLAHE)2_8 的为 +6.63%,对比度受限的自适应直方图均衡化(CLAHE)2_16 的为 +10.01%,对比度受限的自适应直方图均衡化(CLAHE)10_16 的为 +1.8%。关于每帧误报数(FP),可以观察到对比度受限的自适应直方图均衡化(CLAHE)2_8 和对比度受限的自适应直方图均衡化(CLAHE)2_16 与原始测试非常相似,而对比度受限的自适应直方图均衡化(CLAHE)10_16 的情况要好得多(每帧误报数越低越好)。

图 15. 取决于帧数以及所使用的对比度方法(使用尺度不变特征变换(SIFT)、加速稳健特征(SURF)、定向 FAST 和旋转 BRIEF(ORB)以及加速鲁棒特征(AKAZE))的内点百分比

表 2. 使用对比度受限的自适应直方图均衡化(CLAHE)滤波器进行对比度增强后行人检测(PD)算法给出的关键性能指标(KPI)百分比(CLAHE 2_8:裁剪限制值 = 2 且分块大小 = 8×8 的对比度受限的自适应直方图均衡化(CLAHE))。TP = 真阳性,FP = 误报数。

图16. ROC曲线显示TP率与。每帧的6个配置测试和测试原始图像

3.2. 锐光和对比度的过滤器调整

本节将介绍在[11]电子成像会议上展示的结果。在本实验中,我们使用了93个视频的目录进行测试,并在行人检测(PD)算法之前应用了锐化和对比度。为了得到地面真实结果,对整个目录运行了行人检测算法。为了限制配置空间,已经测试了每种技术的一个滤波器:拉普拉斯滤波器,它有一个参数,有两种可能性,CLAHE技术,有两个参数:剪辑限制:[1,15]和时间大小:8×8或16×16。这里的目标是优化PDkpi:最大化TP率,同时保持尽可能低的FP率。为了实现这一目标,我们建议计算一个折衷值(G),以联合优化TP率(rTP)和FP率(rFP)值:

G = rFP (1 - rFP)

图17的图表显示了每个配置的三个度量值(TPrate、每帧的FP和折衷值)。可以观察到,TP速率值从0.68到0.83不等。每帧的FP变化也很大,从0.039到0.101。

图17:TP率(%)与。每帧的FP作为对比度

在表3中,我们根据TP率和折衷值建立了最佳配置。

表3:原始目录的TP率、FP率和折衷值,TP率的最佳配置和折衷值的最佳配置

在配置中发现的最佳TP为0.83,比原来的增加了约0.045。通过观察每帧的FP值,可以看到它几乎是原始值的两倍(0.095)。然而,折衷值考虑了TP速率和每帧的FP,这可能是一个更好的度量方法。最后一列显示了kpi值,如果按折衷值排序,最佳TP率为0.81,它大于0.025。在这种情况下,每一帧的FP仍然很低(0.069)。

表4显示了在按TP率或每个折衷值进行排序时找到的最佳配置的参数值。图18显示了由配置按折扣值排序时找到的最佳配置给出的参数值处理的图像。如果我们考虑人类视觉应用,这幅图像的“图像质量”将远远被认为是一个“好看”的图像。

表4.最佳配置的参数

图 18. 使用按折衷值排序时找到的最佳配置(拉普拉斯 8(Lap8),裁剪限制值 = 2 且分块大小 = 8×8)所给定的参数进行锐化和对比度调整后的图像

3.3. 讨论

本次像素级研究获得的结果表明,对图像信号处理器(ISP)流水线的两个模块进行调整会对计算机视觉算法性能产生直观可见且可量化的影响。首先,在应用索贝尔算子(边缘检测)、二值化以及形态学操作之后,可以观察到视觉上的差异。通过计算每种方法的内点百分比,凸显了对特征提取(如尺度不变特征变换(SIFT)、加速稳健特征(SURF)、定向 FAST 和旋转 BRIEF(ORB)以及加速鲁棒特征(AKAZE))性能的影响。

对行人检测算法关键性能指标(KPI)的测试表明,仅通过使用后处理滤波器,算法性能就会出现显著的提升或下降。在逐个应用滤波器的实验中,可以观察到原始图像和处理后图像之间的真阳性(TP)百分比在锐化操作时从 +14.43% 到 -3.2% 不等,在对比度调整时从 +10% 到 -10% 不等。

在针对更大视频样本集所做的最后一项实验中,结果证实了之前得出的结论:“图像质量” 对计算机视觉有着可量化且显著的影响。通过调整这两个滤波器,我们能够在将误报率(FP)维持在较低水平的同时提高真阳性率。这有力地表明,为使计算机视觉算法(包括传统特征提取算法和机器学习算法)获得最佳性能,针对计算机视觉进行图像信号处理器(ISP)调优是一个极具潜力的重要研究领域。

4. 未来工作:面向计算机视觉的专用图像信号处理器(ISP)

4.1. 调优算法

调优算法通常需要一个可优化的标量度量指标。度量指标既可以在图像层面定义,也可以在计算机视觉算法层面定义。针对人类观看需求进行的图像信号处理器(ISP)调优传统上是基于各测试对象偏好分数的汇总,以主观方式完成的。也存在客观的图像质量度量指标,如均方误差(MSE)、结构相似性(SSIM)等,但它们通常与感知相似性并不对应。对于计算机视觉算法的调优而言,直接对算法的关键性能指标(KPI)进行调优效果更好。通常会有多个应用,如深度学习、运动恢复结构、视觉同时定位与地图构建(SLAM)等,各个算法的不同精度需要通过加权求和来进行衡量。在对多个算法关键性能指标(KPI)进行调优时,主要挑战在于每次迭代的时间复杂度,对于参数搜索空间较大的情况,这可能变得不切实际。因此,必须采用一些高效的策略。可以先对图像质量度量指标进行调优,以便为计算机视觉算法调优方法提供良好的初始值。值得注意的是,就深度学习算法而言,可能根本不需要图像信号处理器(ISP)组件,因为深度学习网络能够隐式地学习必要的变换。不过,在深度学习网络中显式地对其进行建模以利用成像方面的先验知识,或许效果会更好。戴蒙德等人 利用这一思路对一个可微的图像信号处理器(ISP)模块进行建模,该模块可与识别网络一起进行端到端的训练。

一旦确定了调优度量指标和策略,优化算法就会找出最佳参数集。最简单的方法是手动试错,即由开发算法的专家根据经验对参数集进行调整。通常,会将计算机视觉领域常用的标准参数集作为起点,再进一步细化。一般来说,这是一个繁琐的手动过程,无法系统地得出最优参数集。对于具有数百个参数的图像信号处理器(ISP)的大型搜索空间而言,手动调优尤其困难。最简单的优化算法是网格搜索和随机搜索。在网格搜索中,会基于所有可能的组合在网格上定义参数范围,然后使用暴力搜索的方式对其进行评估。对于参数组合较多的情况,这种方法并不实用。一种改进的方法是随机搜索,即采用一种巧妙的采样策略随机选择参数。在 [95] 中,针对大型搜索空间已成功展示了这种方法。然而,它并不能保证收敛到最优参数集。

近来,出现了许多更智能的、适用于大型搜索空间问题的优化方法。贝叶斯优化 [96] 是一种常用于优化大规模问题(特别是评估函数计算成本较高的情况)的形式化方法。原则上,它有可能将其他搜索启发式方法(如遗传算法或群优化技术)融入先验模型中。因此,它是一种更通用且更强大的方法。从形式上讲,问题可定义如下:一个算法有一个参数空间 P = {p1, p2, …, pn },它是由所有可能的参数配置组成的集合。参数通常是数值型的,也可以是类别型的,如启用 / 禁用某个模块。每个参数的分辨率和范围将是关键的设计选择。对于具有数百个参数的图像信号处理器(ISP)配置,集合 P 的基数可能会超过 10²⁰,暴力搜索是不可行的。

算法调优问题可定义如下:popt = argmax (pi∈P)(Faccuracy (p)),其中 popt 是使精度成本函数 Faccuracy (p) 最大化的最优参数配置。通常,会有多个算法,其精度需要联合优化。标准方法是通过加权求和将不同的精度标量化。也有多目标优化方法,其目的是在多维空间中同时优化关键性能指标(KPI)。通常,这种方法相对复杂,也需要大量的人工干预。基于序列模型的算法配置(SMAC3)(是一款用于优化配置的热门工具,它结合了贝叶斯优化、梯度下降以及其他启发式方法。

单图像信号处理器(ISP)与双图像信号处理器(ISP)

人类视觉(HV)和计算机视觉(CV)的需求可能不同。传统上,出于成本考虑,在处理片上系统(SOC)板载或配套芯片上只有一个图像信号处理器(ISP),而且通常是针对人类视觉进行调优的。来自同一流水线的图像被用于机器视觉应用。已有研究表明,针对人类视觉(HV)和计算机视觉(CV)优化的图像信号处理器(ISP)是不同的 [94,97]。我们也将在下一节展示更多这方面的实证证据。将图像信号处理器(ISP)拆分为分别用于人类视觉(HV)和计算机视觉(CV)的独立流水线,能够对二者分别进行独立调优,以便各自实现性能最大化。这对于机器学习算法尤其重要,因为机器学习算法理想情况下是基于特定的图像信号处理器(ISP)设置进行训练的。双图像信号处理器(ISP)流水线如图 19 所示。人们对独立图像信号处理器(ISP)的重要性有了更深入的理解,而且现在大多数汽车片上系统(SOC)都具备了支持双图像信号处理器(ISP)流水线的计算能力和内存带宽。尽管采用了多个图像信号处理器(ISP)的实现方式,但存在一个关键限制,即动态反馈回路算法必须由一个主控制器来控制。相应图像传感器的底层行为,例如特定曝光下某个像素的曝光时间,必须进行唯一控制。

图 19. 双图像信号处理器(ISP)示意图

结论

汽车系统的一个关键趋势是朝着全自动驾驶车辆发展,计算机视觉也不例外。所有主要的汽车制造商都在研究并推广某种形式的车辆自动驾驶,而且都在计算机视觉领域进行投资,近期尤其侧重于神经网络方面。这一趋势始于市场上已有的较低自动化水平的应用,并且在未来几十年随着全自动驾驶车辆的出现必然会全面开花结果。因此,摄像头过去是、将来也仍会是此类系统中的关键要素。

图像信号处理器(ISP)在计算机视觉中起着至关重要的作用,因为它从根本上控制着传递给计算机视觉算法的信号质量。然而,正如我们所讨论的那样,计算机视觉中的 “质量” 未必是一个定义明确的概念,特别是考虑到计算机视觉中能够设计出各种各样的算法和应用。正如我们所阐述的,很明确的一点是,在自动驾驶车辆的背景下,使计算机视觉性能最大化至关重要,而且对图像信号处理器(ISP)进行调整会对计算机视觉算法的性能产生重大影响。鉴于该主题的重要性和复杂性,我们围绕以计算机视觉性能作为成本度量来自动调整图像信号处理器(ISP)流水线参数的几种可能性进行了讨论,例如贝叶斯超参数搜索,从而避开了为传递给算法的图像数据定义计算机视觉质量度量的必要。

在本文中,我们主要阐述了对图像信号处理进行自动调优以最大化计算机视觉算法性能的重要性这一论点,展示了一些结果来强化我们的论点,但并未呈现自动调优本身的相关结果。这显然是朝着这个方向开展工作的下一步内容。与本研究中呈现的结果相关,后续研究将会拓展至其他图像信号处理器(ISP)处理过程,如高动态范围(HDR)、色调映射、低光敏感度、调制传递函数(MTF)以及位深等方面,并研究对其他计算机视觉(更具体地说是深度学习,DL)算法关键性能指标(KPI)的影响,以便按照所述方式通过自动化对图像信号处理器(ISP)进行最优调优。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录