加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 一、引言
    • 二、鱼眼相机模型
    • 三、环视相机系统
    • 四、感知任务
    • 五、公开数据集与研究方向
    • 六、结论
  • 相关推荐
申请入驻 产业图谱

鱼眼相机在自动驾驶环境感知的应用和挑战

2024/12/31
534
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

摘要

环视鱼眼相机常用于自动驾驶中的近场感知。车辆四周的四个鱼眼相机足以覆盖车辆周边 360 度范围,捕捉整个近场区域。一些主要应用场景包括自动泊车、交通拥堵辅助以及城市驾驶。由于汽车感知领域的重点在于远场感知,所以针对近场感知任务的数据集有限,相关研究工作也很少。与远场不同,由于环视感知对物体检测精度要求达到 10 厘米且物体存在部分可见性问题,它带来了额外的挑战。

由于鱼眼相机存在较大的径向畸变,标准算法无法轻易扩展应用于环视场景。因此,我们有动力为汽车鱼眼相机感知领域的研究人员和从业者提供一份完备的参考资料。首先,我们对常用的鱼眼相机模型进行了统一的分类处理。其次,我们讨论了各类感知任务以及现有相关文献。最后,我们探讨了面临的挑战及未来发展方向。

一、引言

环视系统利用带有重叠区域的网络来覆盖车辆周围的近场区域。图 1 展示了典型环视系统的四个视图,以及典型泊车应用场景示例。在这种近场感知中会使用超过 180 度的广角视图。任何感知算法都必须考虑此类相机系统固有的明显鱼眼畸变问题。这是一项重大挑战,因为计算机视觉领域的大部分工作都侧重于径向畸变小的窄视场相机。不过,随着此类相机系统得到更广泛的部署,该领域已经有了相关研究工作。本文旨在为读者概述环视相机(例如成像、配置和校正方面),综述现有技术水平,并深入剖析该领域当前面临的挑战。

理论上,针孔相机的视场角为 180 度。然而在实际中,由于光圈和成像器尺寸的实际限制,视场角很难超过 80 度,如图 2(上图)所示。鱼眼镜头通常用于将视场角有效增大到 180 度或更大。值得注意的是,“鱼眼” 这个术语有点用词不当,如图 2(下图)所示。由于光线在水和空气表面交界处发生折射而弯曲,将近 180 度的大视场角被压缩到了近 100 度的小视场角。游泳的人也会观察到同样的现象,这与鱼眼的光学原理并无关联。

鱼眼相机的发展有着悠久的历史。伍德在 1908 年最先创造了 “鱼眼” 这个术语,并制造了一台简易的鱼眼相机 [1],最近发布的汽车鱼眼视频数据集 “伍德景观”(WoodScape)在命名时就认可了这一事实 [2]。邦德 [3] 用半球形镜头取代了这种水基镜头,鱼眼相机的光学发展由此开始。宫本 [4] 早期对鱼眼相机几何畸变建模提出了见解,建议使用等距、球极平面投影等方法。

以大角度入射到针孔相机上的光线在超过 60 度时无法被有效成像。由于折射作用,添加鱼眼镜头可将视场角大幅增加到 190 度。(下图)光线在水面的折射会导致地平线被压缩到一个更小的视场范围内。

等立体角模型。这些模型在制图学领域(例如 [5] 以及许多其他文献)早已为人所知。

A. 应用

鱼眼相机提供的视场角比标准相机宽得多,通常具有 180 度甚至更大的视场角。这带来了诸多优势,尤其是可以使用更少的相机来实现全方位覆盖。鱼眼相机首次成功的商业应用是在摄影领域,特别是在娱乐行业,鱼眼镜头效果成为了一种风格元素。沃克斯(Vox)的一个视频 [6] 很好地概述了其使用历史。第二个成功应用的领域是视频监控,在现代监控系统中常常能看到半球形镜头表面 [7]。近来,广角镜头相机常用于虚拟现实头戴设备 [8]。它们也常用于水下机器人 [9] 以及空中机器人 [10]。

汽车领域是鱼眼相机的重要应用领域之一,在该领域需要更先进的视觉感知能力。1956 年,通用汽车的别克 “百夫长” 概念车型就配备了首个广角后视相机和一台电视显示屏。2018 年,美国强制要求配备后视鱼眼相机以减少倒车时的事故 [11]。2008 年,宝马为停车视野配置了环视相机 [12]。环视相机已成为许多车辆常用的功能配置。随后,它们被用于诸如交叉交通警报 [13]、物体检测 [14] 以及自动泊车 [15] 等计算机视觉应用中。图 1(上图)展示了环视系统中相机的位置以及示例图像。图 1(下图)展示了近场区域,它构成了车辆周边 360 度感知的主要传感器。图中较小的方框内还展示了通过拼接四个相机画面为驾驶员提供的环视可视化效果。

图 3. 标准边界框对于鱼眼图像来说并非良好的物体表示方式。(a)边界框内的红色像素显示出大片不包含物体的区域。定向框(b)和曲线边界框(c)是更好的表示方式 [14]。

然而,鱼眼相机存在一些挑战。最明显的是它们存在强烈的径向畸变,若要校正这种畸变则会存在一些弊端,包括视场角减小以及周边出现重采样畸变伪影 [16]。由于空间变化的畸变,物体的外观变化更大,对于近处的物体尤其如此。这增加了卷积神经网络(CNN)的学习复杂度,因为卷积神经网络将平移不变性作为一种归纳偏置,并且由于模型必须学习物体所有畸变版本的外观,还增加了样本复杂度。此外,常用的利用边界框进行物体检测的应用变得更加复杂,因为边界框对于鱼眼畸变物体来说并非最佳适配方式,如图 3 所示。在 [14] 中探讨了使用更复杂的表示方式(而非矩形框),例如利用鱼眼相机已知径向畸变的曲线边界框。鱼眼感知是一项具有挑战性的任务,尽管其应用广泛,但相较于针孔相机,对它的探索相对较少。

对于没有明显鱼眼畸变的相机而言,与之相关的一种非常常见的几何模型是针孔模型。人们可能首先会考虑光线与距离投影中心某一固定距离的单一平面的相交情况。此类相机因镜头产生的所有畸变模型,其设计初衷就是将平面上的交点位置从投影中心沿径向进行偏移。在某种程度上,由于缺乏统一的几何模型,鱼眼算法的开发变得复杂起来。许多模型使用不同的特性来描述鱼眼投影。

本文的目的之一就是研究常见的模型,并证明其中一些模型彼此之间高度相关。有几个模型可以被视为通用透视映射或椭球通用透视映射的特殊情况,这两种映射在其他科学领域已经为人所知数十年了 [17]。我们将表明所呈现的部分模型甚至是对现有模型的重新推导。因此,我们尝试梳理众多已提出的模型,并将它们分为几个类别来考虑。例如,我们可以考虑一类基于图像的模型,在这类模型中,鱼眼投影被视作与针孔投影的偏差来进行度量,例如 [18] 和 [19]。或者,我们也可以考虑一种在投影中心对光线投影角度进行操作的模型(例如 [2]、[20])。还有一些模型提出利用在不同表面上的一系列投影来对鱼眼畸变进行建模,例如 [21]、[22] 和 [23],我们可以将这类模型称为球面模型。

B. 与其他传感器的关系

自动泊车系统通常是利用鱼眼相机和声呐来设计的 [15]。声呐通常用于车辆的前后部,它在准确检测近场障碍物方面非常可靠 [24]。然而,其探测范围通常局限于大约 5 米左右。此外,其所提供的信息非常稀疏,无法获取关于场景更丰富的信息。通常,一种经典的后期融合方法会将鱼眼相机和声呐的感知输出进行结合 [15]、[25]。近来,用于城市驾驶应用、能提供 360 度覆盖的短程雷达(SRR)阵列正被重新用于诸如泊车等近场感知应用中。它们比声呐的密度大得多,探测范围可达 30 米。然而,它们无法覆盖整个近场,存在一些盲区。

此外,雷达的局限性还在于它无法检测道路标线,并且在物体分类方面性能有限 [26]。在 [27] 中更详细地讨论了利用短程雷达进行停车位检测的内容。鱼眼相机与短程雷达的融合通常是在经典的动态占据栅格融合框架下进行的 [28]。基于卷积神经网络的融合方法也正在兴起 [29]。激光雷达是一种探测范围超过 200 米的远场传感器,因此它通常不会与近场鱼眼相机相结合。瓦尔加等人 [30] 曾尝试将鱼眼相机和激光雷达相结合以提供统一的 360 度环境模型,但在近场存在盲区。激光雷达在物体分类方面的性能极其有限 [26]。总而言之,其他近场传感器(如雷达和声呐)只能获取场景的有限信息,因此它们无法独立运行来执行近场感知任务。

本文旨在进行广泛的概述和综述,以补充我们之前的工作 [31],之前的工作相对更侧重于我们具体的环视感知架构及实现的狭义讨论。我们列举了一些与本文相关的其他综述性论文。在 [15] 中,针对自动泊车这一特定应用场景的计算机视觉进行了简要综述。在 [12] 中,提供了关于环视监测的早期综述,但未讨论感知任务。最后,[32] 对视觉任务进行了全面综述,但并非专门针对汽车环视系统。

本文的结构如下。在第二节中,我们将讨论一些常用的模型,并对这些方法进行分类,确立它们之间的等效关系和各自的特点。在第三节中,我们将介绍由四个鱼眼相机组成的近场环视系统的汽车配置情况,并讨论诸如校准、校正以及几何基元等基本构造。第四节将详细综述基于环视相机的视觉感知任务。第五节将讨论该领域有待探索的未来研究方向。第六节给出总结性的评论。

二、鱼眼相机模型

在本节中,我们将对几种比较流行的鱼眼相机模型进行综述。目的是使用统一的符号来提供一份可能的模型的详尽列表。对于开发人员来说,这可被视为一种工具,用以指导针对给定应用选择合适的模型。人们可以尝试使用更简单、更具针对性的模型,并且根据具体应用情况,在校准后某一给定相机的误差仍然较高时,将开发扩展到更通用的模型之一。

A.符号和术语

矩阵用A∈Rm×n表示。将使用普通向量v∈Rn的通常表示法,用n-元组表示。具体来说,r3中的点记为X =(X,Y,Z)T,图像点I2集合中的一个点记为u =(u,v)T。单位球由S2 = {s∈R3 | ⅡsⅡ = 1}定义,单位球上的点用3个向量表示,即s =(x,y,z)T。

我们可以定义一个从C3⊆R3到图像的映射为

其中C3表示定义投影π的点集。i2⊆r2表示C3投影后的图像。θ(通常以弧度表示)表示成像点的场角(相对于z轴的角度),θmax表示模型的最大场角。

π的真正逆自然是不可能的。然而,我们可以定义一个非投影函数映射从图像域到单位中心投影的球

在某些情况下,解析的非投影π−1(u)不存在或不具有奇点。图4展示了图像点和单位球体之间的关系。

我们还使用Ⅱu Ⅱ = Q(θ)来表示投影函数的径向形式。也就是说,这是一个将视场角映射到图像平面上的径向距离(从失真中心开始)的函数。径向非投影函数记为θ = Q−1(ⅡuⅡ)。径向到入射角的非投影是一个真实的逆,不像未投影到图像球体。偶尔,我们会需要参考两个图像点,一个扭曲的点和一个未扭曲的点。在这种情况下,我们将使用下标d和u来区分(例如,ud和uu)。图像上映射将图像从其扭曲点径扭曲到图像上的未扭曲点(即从ⅡudⅡ到ⅡuuⅡ)。我们将这个映射表示为ⅡuuⅡ = τ(ⅡudⅡ),以及它的逆ⅡudⅡ = τ−1(ⅡuuⅡ)。

在讨论下面的模型时,我们使用下标来表示每个不同模型的参数和函数。具体地说,我们使用下标p表示针孔模型,e表示等距,s表示立体图,o表示正交图,eo用于扩展正字法,div表示除法,fov表示视场,ucm用于统一相机模型,ds用于双球。

图4。鱼眼像点u和它在单位球面上的等价点之间的关系,s与X位于同一射线上。

B. 针孔照相机型号

针孔摄像机模型是在计算机视觉和机器人技术的许多领域中使用的标准投影功能,当研究仅限于考虑标准的视场摄像机时。针孔模型由

或者,如果我们把它看作是一个径向函数

其中,θ是投影射线的视场角。请注意,参数f有时被称为焦距。

未投影函数为

针孔模型定义为点集C3 = {X∈R3 | Z > 0}。这些点映射到整个图像平面,即I 2 = R2和θmax = π/2。然而,在实践中,即使考虑到径向畸变,针孔模型也很少用于具有场角θ>60◦的点。

C. 经典几何模型

我们将本节中讨论的模型称为经典模型,因为它们已经被研究了至少60年的[4]。

1)等距投影:在等距鱼眼模型中,投影半径Qe(θ)通过等距参数f的简单缩放与场角θ相关(见图5a)。而这也是:

未投影函数为

等距投影对于点C3 = R3 (0,0,0)T、I 2 = {u∈R2 | Ⅱu Ⅱ≤f π }和θmax = π是有效的。

2)立体投影:与等距模型一样,在立体投影中,X到投影球面的投影中心为C(图5b)。因此,该立体投影被描述为

我们以后将需要的非投影函数是

立体投影对点C3 = R3 (0,0,0)T有效,并将这些点映射到整个映像平面,即I 2 = R2。因此,最大的场角是θmax = π。

3)正投影:与之前的投影模型相似,正投影以对球体的投影开始(图5c)。接下来是对该平面的正交投影。因此,正字法投影是由

未投影函数为

这里是I 2 = R2、C3 = {X∈R3 | Z > 0}和θmax = π/2。这些非投影函数被定义得很好,如f≥Ⅱu Ⅱ,它是由原始投影(10)强制执行的。

4)扩展正交模型:扩展正交模型[33],如图5d所示,通过释放投影平面与投影球的正切关系来扩展经典正交模型,允许偏移λ。扭曲投影与方程(10)相同。而失真的和未失真的径向距离与其逆距离之间的关系则由

这是在[33]中稍微简化的表示,并假设f和(λ + f)是正的,这完全是实际的约束。扩展的正交法模型与标准正交法模型具有相同的域和共域。

图5。经典的几何模型。

5)扩展等距模型:实际上,扩展的正交图模型只是一个从投影到图像上映射的转换。许多模型可以以与扩展的正交法模型相同的方式转换为图像上的映射。我们只给出了等距模型的一个例子。

重新排列(4),使θ = ⅡusⅡ/f替换为(2),使(2)的焦距为f +λ,得到等距模型的图像上映射。按照类似的步骤,我们也可以得到逆的结果。

这在[34]中描述了,尽管没有额外的缩放参数λ。我们也可以遵循上面相同的步骤来获得一个扩展的立体模型。这些扩展模型的C3、I2和θmax与正交法模型相同。

D. 代数模型

我们提供了一个简短的讨论鱼眼相机的代数模型,特别是多项式模型,和二模型。多项式模型的讨论,我们提供的完整性,虽然我们集中在几何模型的其余部分。

1)多项式模型:非鱼眼相机的经典布朗-康拉迪畸变模型[35],[36]使用一个奇称为多项式,ⅡudⅡ = Pn(ⅡuuⅡ),来描述图像上的径向畸变(即映射ⅡuuⅡ到ⅡudⅡ),其中Pn表示一些任意的n阶多项式。尽管年代久远,但布朗-康雷迪模型是非鱼眼相机[37],[38]的软件实现中的标准失真模型。为了解释鱼眼失真,在[18]中提出了一种图像上的多项式模型,称为多项式鱼眼变换(PFET)。PFET和布朗-康雷迪模型之间的区别在于,PFET允许奇数指数和偶数指数来解释在鱼眼相机中遇到的额外失真。

存在一类多项式鱼眼模型,其中场角到像平面的映射是通过a

多项式,即QP (θ) = Pn(θ),使用入射角而不是未失真的半径。例如,坎那拉-勃兰特[20](以及在流行的OpenCV软件[37]中实现的那样)提出了一个n = 5或更多阶的多项式模型,只有奇指数。在[2]中,提出了一个同时包含偶指数和奇指数的n个=4多项式。这两种模型都没有在多项式中使用常数系数项,因为这样做会导致在图像的中心有一个未定义的区域。在[39]中提出了一个五阶多项式,但如果鱼眼半径和视场已知,则将其简化为四个独立参数。以上这些都可以解释为等距模型的推广,这是一个一阶多项式。在这种情况下,投影球被给定多项式定义的曲面所取代。然而,这是迫使一个几乎没有效用的几何解释。

MATLAB计算机视觉工具箱[40]和NVidias驱动系统的SDK [41]包括了在[42]中提供的基于多项式的鱼眼模型的实现。在这种情况下,多项式被用来建模投影和非投影,否定了需要一个数值方法来反转投影(这是基于多项式的模型的一个主要计算问题)。注意,这两个多项式并不是相反的,而是两个不同的函数。这些多项式是独立校准的,这可能使它无法使用的迭代方法,如果多次项目和取消项目点。

2)分割模型:径向分解的分割模型[17]获得了一些良好的特性,至少对于单参数变体,直线投影到图像[43],[44],[45],对于许多镜头,单参数变体的[46]表现很好。该模型及其逆模型由

这在[34]中通过添加了一个额外的扫描参数进行了扩展,从而提高了某些类型的鱼眼透镜的建模性能。而划分模型

最初以图像上映射表示,它可以表示为投影函数

将针孔模型(2)代入(16),得到径向投影函数Q div(θ)。f,在这种情况下,一旦被分割模型解决了失真,就可以被认为是针孔模型的参数。分割模型的非投影为

投影函数和图像上映射具有相同的域,C3 = {X∈R3 | Z > 0}、I 2 = R2和θmax = π/2。

E. 球形模型

基于对一个单位球的点(或其仿射基因化)的投影,我们也考虑了一组最近的(至少是过去几十年的)鱼眼模型。

1)视场模型:视场模型[19]及其逆模型的定义为

参数ω近似于相机的视场,虽然不是完全的[19]。这是一个图像上的模型,就像分割模型一样,其中ⅡuuⅡ和ⅡudⅡ定义了图像平面上的未扭曲和扭曲的半径。或者,它也可以被表示为一个投影函数[23]。

非投影是由

将视场模型表示为投影函数的一个很好的结果是投影πfov (X)的域

覆盖所有C3 = R3 (0、0、0)T。相比之下,视场模型的图像上映射形式仅限于映射C3 = {X∈R3 | Z > 0}中的图像点,这对任何图像上映射都是如此。成像点的集合是I 2 = {u∈R2|ⅡⅡ≤θmax = π。我们将很快证明视场模型是等距模型的等价物,因此是一个球形投影。

2)统一相机模型:UCM最初用于建模散照相机[21],后来被证明在建模鱼眼相机[47],[48]。它已被证明在一系列的镜头[46]上表现良好。首先,点X被投影到一个单位球体,然后投影到一个建模的针孔相机(图6a)。我们提出了具有更好的数值性质的版本。

图6。球形模型。UCM (a)首先是对单位球体的投影,然后是透视投影。E-UCM用一个椭球体代替了球面,其系数为β。DS模型在UCM上增加了第二个单位的球体投影,球体之间的距离为ξ。

UCM的非投影由

Qc(θ)是一个复杂的方程(比上面的更复杂)

因此,这里并没有显示出来。投影的结构域和径向函数为

当α<为0.5时,针孔投影点在单位球体内,当α>为0.5时在外部,当α=为0.5时在球体上。

3)增强统一相机模型:UCM由增强UCM[22](图6b)扩展,它将球形投影推广到一个椭球体(或者,实际上,是一个一般的二次曲面),并能够证明一些精度增益。E-UCM是由

其中,d=√β(X2+Y2)+Z2,β为椭圆系数-

cient.非投影函数对于EUCM来说并不漂亮,读者可以参考的是[22]。有效的点和角度的集合为

4)双球体模型:后来,UCM再次被双球体(DS)模型[23]扩展,它增加了第二个单位球体投影,以实现更复杂的建模(图6c)。

在[23]中给出了令人信服的结果,以证明了双球模型的有效性。该模型的非投影函数为

图7。一般透视映射的定义是由一个点到半径为fs的球体的投影,然后是到焦距为fp的针孔模型的透视投影。这两个投影中心被d偏移。与经典模型一样,它在制图学中被知道了几十年的[53]。

投影和非投影的有效范围为

F. 其他型号

虽然我们已经讨论了许多更流行的鱼眼投影模型,但这并不是详尽的。无论出于什么原因,我们省略了一些似乎不太受欢迎的模型的细节。例如,巴克斯坦和Pajdla [49]提出了对经典模型的两个扩展。在[18]中也提出了一种基于对数的鱼叶眼变换(FET),尽管与其他模型相比,其精度较低。[50]中提出的基于双曲罪恶的广角摄像机[51]模型,后来用于它,这里没有讨论,也没有级联单参数分割模型[52]。

G. 照相机型号的统一使用

随着鱼眼模型的普及,人们很自然地会怀疑一些模型之间是否存在共性,甚至在模型的开发过程中是否存在重复。

1)一般透视投影和鱼眼模型:

统一相机模型属于一类球体的一般垂直透视投影,在测测量学和制图领域中有[53],[54],其中在球面上添加了中心投影的平凡步骤。立体投影和正交投影也属于这一类。立体投影的针孔投影中心是在球体的表面上,而正字法投影具有无限的焦距(因此称为术语正字法)。立体投影和UCM之间的联系实际上在[21]中描述。

图8。各种鱼眼模型与一般透视投影之间的关系。双线表示两个模型是等价的,单行表示泛化/专业化。让我们首先检查图7所示的一般垂直透视投影,。针孔相机沿z轴偏移一个距离d。到球面上的投影是由

这里我们使用s =(x,y,z)T表示半径为fs的球上的点,以便将其与之前用来表示单位球上的点区分开来。点u是s的针孔投影

+d将这些点从球体转换为针孔坐标系。因此,通过这两个参数γ = fp和ξ = d/fs,我们有(24),UCM。另外,如果我们将针孔相机平面限制在球面表面(即d = fs),并制作fp = 2fs,我们得到立体方程(7)。

E-UCM [22]通过投影到一个椭球体而不是一个球体来扩展UCM。这种类型的投影在测地学和制图学中被称为[53],[54]椭球一般透视投影。我们不会在这里重新推导方程,而是让读者参考原始材料。如前所述,DS模型[23]通过添加第二个投影球来扩展对更复杂的光学进行建模的UCM。

因此,鱼眼镜头的UCM、E-UCM和DS模型可以作为立体图像相机模型的推广。更正确的是,它们所有模型(UCM、E-UCM、DS、分割模型和立体模型)都是一类一般透视模型的一部分。如果我们允许fs接近于无穷大,那么(40)就成为了针孔投影模型。如果我们允许fp(因此也允许d)趋于无穷,那么我们得到正投影。

2)立体图和除法模型:正如在[55]中所讨论的,我们可以将针孔投影(2)与逆立体模型(8)给出

允许一个= 1/4f 2,这与分割模型相同,(16)。因此,我们可以说,分割模型是立体投影的图像上版本。

3)等距和视场模型:考虑(2)给出的径向针孔投影,以及等距鱼眼投影模型(4)。将这两者结合成与视场模型相似的形式(19)

由于fp和fe是自由参数,通过计算法确定,我们可以将其设置为

因此我们可以看出,(19)式和(42)式是等效的映射函数。视场角模型是等距投影的基于图像的版本。

结果:为了具体证明球极平面投影 / 除法模型对以及等距投影 / 视场角模型对的等效性,我们给出了一组小规模的结果。值得一提的是,[23] 中提供了五台相机的一组参数,其中包括视场角模型的参数。根据 [23] 中视场角模型的参数集 ω,我们通过应用(43)式来获取等距参数。见表一。两者之间的差异处于机器精度级别,这证明了这两个模型是等效的。[46] 中呈现的结果(特别是参考表四)支持了球极平面投影模型和除法模型的等效性。我们可以从中看到,当将球极平面投影模型与除法模型进行对比时,残差为零。我们还可以看到,当将统一相机模型(在 [46] 中称为通用传感器模型),或者等效地说将通用透视映射与球极平面投影模型和正射投影模型进行对比时,残差也为零。

讨论:鱼眼相机应用存在大量潜在的模型。在本文中,我们提及了二十种模型,不过可以肯定的是这并不详尽。然而,我们已经表明许多几何模型之间存在很强的关联性。至少有七种模型与通用透视投影相关或直接等效。此外,我们还表明一些近期开发的鱼眼模型在数学上与经典鱼眼投影是等效的。

 

图 9. 环视相机可视化效果

几十年前提出的球极平面投影和等距模型等功能。在图 8 中,我们给出了与通用透视投影相关的几何鱼眼模型示意图。

三、环视相机系统

在本节中,我们将讨论环视相机(SVC)的设置及其感知所需的基本要素。我们先从环视相机用于可视化的历史应用情况入手,这有助于理解汽车配置情况。然后我们再讨论诸如校准、校正以及几何基元等支撑模块。

A. 可视化

从历史上看,环视相机一直用于在驾驶员仪表盘上显示,以实现泊车可视化。首个可视化应用展示的是一个用于倒车辅助的后视鱼眼相机 [12]。之后通过对行人、行车道等物体检测的可视化,该应用得到了进一步改进 [56],随后利用四个鱼眼相机将其增强为环视可视化 [57]。最初的系统基于二维俯视图,如图 9(a)所示。这主要用于泊车应用,但也可用于其他如交通拥堵辅助等低速操控应用场景。二维俯视图假定地面是平坦的,所以当地面有起伏时就会出现伪影。其他附近物体(如车辆)在这种视图下会严重失真。通过采用一种类似碗状的曲面(其中心附近是平坦的,朝周边呈向上弯曲状)构建的三维环视视图解决了这些问题,如图 9(b)所示。此外,利用车辆周边的深度估计可以调整碗状曲面,以实现最佳视角,减少附近物体的伪影。例如,如果车辆一侧有其他车辆靠近,该区域的碗状曲面就会移到本车前方以避免产生伪影。通常,应用程序会提供一个用户界面,供驾驶员动态选择所需的视角。环视可视化应用通常是作为一个利用图形处理单元(GPU)的 OpenGL [58] 渲染应用来实现的。

传统上,环视相机系统的成像流水线主要是为可视化而设计的。然而,这对于计算机视觉来说并非最优,因此 [59] 和 [60] 中提出了双图像流水线的概念。图像流水线的控制回路部分(如自动曝光和自动增益控制)通常是针对可视化进行调整的,因为它们无法联合调整。由于四个环视相机指向四个不同方向,它们可能处于不同的环境光照条件下。例如,阳光可能直射在车辆前部,相应的图像就会有很强的眩光和较高的饱和度;而车尾的相机则处于阴影中,画面较暗。为提高视觉质量,在将图像拼接在一起时会对图像的亮度和颜色进行协调统一 [61]。如果这种协调统一是在用于可视化和计算机视觉的通用图像流水线中进行的,就可能会对计算机视觉产生影响。

B. 配置

在环视相机系统中使用鱼眼相机的主要目的是覆盖车辆周边整个 360 度的近场区域。这是通过四个水平视场角(hFOV)约为 190 度、垂直视场角(vFOV)约为 150 度的鱼眼相机实现的。鱼眼相机的角覆盖范围很大,但其角分辨率相对较小,无法远距离感知较小的物体,所以它主要用作近场传感器。相比之下,典型的远场前置相机的水平视场角为 120 度,垂直视场角为 60 度,其角覆盖范围明显更小,但角分辨率要高得多,使其能够远距离感知物体。鱼眼相机较大的水平视场角使得仅用四个鱼眼相机就能实现 360 度覆盖。较大的垂直视场角能够捕捉到靠近车辆的区域,例如在路口停车时对交通信号灯等较高位置物体的检测。

图 1 展示了典型环视相机系统的安装位置和视场角情况。四个相机放置在汽车的四个侧面,用蓝色圆圈标记出它们的位置。前置相机安装在汽车的前格栅处,后置相机通常安装在后备箱门把手处。左右两侧的相机安装在后视镜下方。它们共同覆盖了车辆周边整个 360 度的区域。相机的放置方式能确保车辆紧邻区域可见,这对于泊车场景至关重要。正因如此,相机画面中很大一部分包含了本车。人们还可以注意到视场角存在明显的重叠区域,如交叉区域所示。这种重叠可用于解决运动结构问题中的尺度问题。然而,这种重叠出现在周边区域,而周边区域的畸变是最大的,很难让算法在该区域准确运行。图 10 展示了在一个已商业部署的近场感知系统上进行的物体检测和分割情况 [31]。

图 10. 对一个已商业部署系统的圆柱校正环视图像进行物体检测和分割的示意图 [31]。通过留意拱形门及其前方的车辆,可以观察到视场重叠情况。

在巴黎一条繁忙的城市街道上进行了测试。通过留意位于前置相机中心以及左右两侧相机边缘处的拱形门,就能观察到视场重叠情况。门前的银色汽车在这三个相机中均能被检测到。还可以观察到对车辆(左侧相机左端)和行人(后置相机左端)的超大角度检测情况。

C. 校准

之前我们已经讨论了各种鱼眼相机模型。这些模型中的每一个都有一组参数(称为内参数),必须通过校准程序来估计。此外,还应当估计相机的外参数,即相机系统在车辆坐标系中的位置和方向 [62][63]。典型的校准过程是,首先检测图像特征(例如,棋盘格图案中的角点 [64]),然后算法会尝试通过最小化点的重投影误差,利用校准设置模型来估计内参数和外参数,以对检测到的特征进行投影。重投影误差在此表明了具有一组参数的模型能够在多大程度上表示镜头的投影函数。其他摄影测量方法利用消失点提取以及设定直线来估计校准参数 [34][44]。OpenCV 库中实现了一个广为人知的校准工具箱 [37]。OpenCV 还为鱼眼相机模型提供了一个版本 [20](见第二章 D.1 节)。其他已知的鱼眼相机校准工具箱还有 OCamCalib [42][65][66] 以及 Kalibr [67][68][69][70]。最后,在 [71] 中,基于棋盘格特征提取和相机间对应关系,提出了一种针对车辆上多个鱼眼相机(内参数和外参数)的校准过程。这适用于环视相机系统,因为相对于车辆提供准确的外校准是提供无缝环视图像的先决条件。当校准图案相对于车辆坐标系具有已知位置时,相机的位姿可以像上述那样在离线环境中进行估计 [72]。在车辆的使用寿命期间,由于机械部件的磨损,相机相对于车辆的位姿可能会发生漂移。理想的情况是相机系统能够利用一类算法自动更新其校准。为了校正相机位姿在在线环境中的变化,可以通过最小化相邻相机地面投影之间的光度误差来实现 [73]。崔(Choi)等人的方法利用相邻相机捕获和检测到的相应车道标线来优化初始校准 [74]。在欧阳(Ouyang)等人的 [75] 中,提出了一种通过考虑车辆里程计来优化外部方向的策略,即利用几何一致性估计车辆的前进运动,并利用垂直消失点估计来确定车辆的方向。这些算法大多用于校正几何错位,但需要通过离线校准获得初始位置。弗里尔(Friel)等人 [76] 描述了一种从汽车视频序列中自动提取鱼眼相机内参数的方法,不过该方法仅限于单参数鱼眼模型(如等距模型)。

D. 投影几何

在针孔相机中,平面上的任意一组平行线会汇聚于单个消失点。这些可用于估计内参数和外参数。对于针孔相机模型,几何问题通常可以利用线性代数来构建。在这种情况下,可以使用霍夫变换(Hough-Transformation)[77] 来检测平行线。所有消失点的集合就是该平面的地平线。在现实世界的相机系统中,针孔相机是相机的一种数学模型,它存在诸如光学畸变等形式的误差。对于窄视场角相机来说,这通常是可以接受的,因为其畸变程度较小。对于宽视场角相机而言,畸变过大,以至于这种方法并非实用的解决方案,而且如果相机的视场角(FOV)大于 180 度,那么原始图像中的点与校正后的图像平面之间就不存在一一对应关系。对于鱼眼相机来说,一个更好的模型是球面投影面 [78][79]。在鱼眼图像中,休斯(Hughes)等人在 [34] 中描述了如何针对鱼眼相机将那些平行线近似拟合为圆或圆锥曲线,以确定消失点或地平线。这些平行线对应于球面的大圆。相应地,鱼眼相机所拍摄图像中的直线近似为圆锥曲线 [55],鱼眼相机拍摄图像中的平行线会汇聚于两个消失点(图 11)。

图 11. 地平线、消失点和极线示意图。

鱼眼图像中的线条可近似为圆锥曲线。类似于透视图像中的平行直线汇聚于单个消失点,鱼眼图像中的平行直线汇聚于两个消失点。这两个消失点投影到单位球面上时,是球面上的对跖点。红色和绿色分别表示水平平行线(蓝色为相关地平线)和垂直平行线的透视情况。红色和绿色的点表示消失点,其中一个消失点位于图像之外。

E. 球面极线几何

立体视觉的几何关系由极线几何来描述,它可与特征提取器结合,用于深度估计和运动恢复结构方法。在针孔相机模型中,穿过两个相机光心的直线与像平面的交点定义了被称为对极点的特殊点。这条直线被称为基线。穿过基线的每个平面在两个像平面上定义了匹配的极线。一个相机中的点位于另一个相机的极线上,反之亦然。这将双视图相机设置中对应点的搜索(立体匹配)简化为一维问题。对于全向相机(如鱼眼相机),我们采用球面投影面来代替平面,此时讨论极面而非极线会更直观,如图 12 所示。从两个相机对单个三维点的理想观测将位于同一个极面上,这与针孔相机情况下它们位于极线上的原理相同。然而,需要注意的是,必须对相机进行校准,以便将图像特征映射到投影球面上。相比之下,对于窄视场角相机,极线几何是针对未校准情况通过基础矩阵来定义的。

F. 校正

它可以消除鱼眼相机的径向失真和重复使用标准的感知算法。虽然这是一种快速的方式开始鱼眼相机感知发展,但有几个问题与纠正。首先,理论上,由于水平视场大于180◦,没有水平视场,因此有光线入射在镜头上

图12。球形外极几何。外极平面Π是围绕外极e的铅笔,由相机中心C和C定义。理想的观测值u和u将位于外极平面上。然而,实际观测点的u和u,在存在噪声的情况下,到外极平面的距离将为非零。

这些光线射向镜头后方,这在针孔相机设置中是行不通的。使用大视场角的鱼眼镜头,而后又因校正而损失部分视场角,这是适得其反的。第二个重要问题是重采样畸变,它在实际应用中更为常见。它是插值伪影的一种特殊表现形式,对于鱼眼图像而言,一个小区域(特别是在畸变较大的周边区域)在校正后的图像中会扩展成一个很大的区域,从而导致噪声较大。特别是,[80] 中讨论了重采样引入的虚假频率成分对计算机视觉造成的负面影响。此外,在推理阶段需要进行扭曲变换步骤,这会消耗大量的计算能力和内存带宽。它会生成带有无效像素的非矩形图像,这进一步降低了计算效率。

常用的鱼眼图像校正方法如图 13 所示。图 13(a)展示了标准直线校正。从缺失的水平白线可以看出近场区域有明显损失,左右边缘区域也有缺失。尽管存在明显损失,但这使得能够使用标准相机算法。图 13(b)展示了一种三次近似校正,其中鱼眼镜头流形表面由一个开口立方体近似表示。它可被解释为鱼眼投影表面的分段线性近似。每个平面都是直线校正,因此在每个块内都可以使用标准算法。然而,立方体两个表面之间存在较大畸变,对于跨越这两个区域的物体将很难进行检测。人们还可以注意到由于周边的重采样伪影导致的强烈透视畸变和模糊现象。

在实际应用中,一种常见的校正过程是使用圆柱面,如图 13(c)所示。它可被解释为一种准线性近似,因为它在垂直方向上是线性的,而在水平方向上表面具有二次曲率。相对于直线视口,它能覆盖大得多的视场角。其主要优点是

图 13. 鱼眼图像的去畸变:(a)直线校正;(b)分段线性校正;(c)圆柱面校正。左:原始图像;右:去畸变后的图像。
其主要优点在于建筑物上的垂直线条表明垂直物体在校正后依然保持垂直 [81]。因此,扫描线得以保留,以便在两个连续的鱼眼图像(运动立体视觉)之间或者在鱼眼相机与窄视场角相机(非对称立体视觉)之间针对立体算法进行水平搜索。其主要缺点是它本身无法捕捉到靠近车辆的近场区域。这可以通过使用一个额外的平滑曲面来覆盖近场区域加以解决。此外,附近物体的畸变也会增大。

四、感知任务

由于数据集有限,关于鱼眼图像感知任务的文献相对较少。我们将感知任务分为语义任务、几何任务和时间任务。最后,我们将讨论联合多任务模型。

A. 语义任务

在本节中,我们将讨论基于外观模式识别的语义任务。

语义分割:这是一个为图像中的每个像素分配类别标签(如行人、道路或路缘石等)的过程,如图 14(第二列)所示。与基于经典计算机视觉方法应用于针孔前置相机的语义分割相比,基于卷积神经网络(CNN)的方法近来取得了很大成功 [82]。然而,在城市交通场景中,自动驾驶汽车需要更宽的视场角来感知周边情况,特别是在十字路口处。邓等人提出了一种重叠金字塔池化模块(OPP - Net)[83],通过采用多种焦距生成带有各自标注的各种鱼眼图像。OPP - Net 在一个现有的城市交通场景数据集上进行了训练和评估。

鱼眼图像语义分割数据集。此外,为提高模型的泛化性能,[83] 提出了一种新颖的缩放增强技术,专门针对鱼眼图像来扩充数据。大量实验表明了缩放增强技术的有效性,并且 OPP - Net 在城市交通场景中表现良好。塞斯(Saez)等人 [84] 引入了一种实时语义分割技术,它是对高效残差分解网络(ERFNet)[85] 针对鱼眼道路序列的一种适配,并基于 “城市景观”(CityScapes)[86] 为鱼眼相机生成了一个新的语义分割数据集。测试是在真实的鱼眼图像序列上进行的,不过由于没有真实标注信息,只展示了定性结果。

邓等人 [87] 利用环视相机来处理 360 度道路场景分割问题,因为环视相机已在量产车辆中被广泛采用。为应对鱼眼图像中的畸变问题,他们提出了受限可变形卷积(RDC)。通过基于输入特征图学习卷积滤波器的形状,它能够实现有效的几何变换建模。此外,作者们还提出了一种缩放增强技术,用于将透视图像转换为鱼眼图像。这有助于创建大规模的环视相机图像训练集。还开发了一种基于 RDC 的语义分割模型。通过结合真实世界图像和转换后的图像,采用多任务学习(MTL)架构对真实世界的环视相机图像进行训练。这些模型在 “城市景观”(Cityscapes)[86]、“鱼眼城市景观”(FisheyeCityScapes)[88] 和 “合成场景”(SYNTHIA)[89] 数据集上进行训练,并在真实的鱼眼图像上进行测试。

克莱门特(Clément)等人 [90] 着重表明可变形卷积可以应用于现有的卷积神经网络之上,而无需改变其预训练权重。这对依赖多种图像模态的系统有所帮助,因为现在每个模型都可以可靠地进行修改,无需从头开始重新训练。他们还证明了可变形组件可以独立训练(不过如果进行微调,建议使用批量归一化)。作者们还指出,不再需要大量带有标注的鱼眼图像数据集。在学习了可变形组件之后,无需微调网络权重就能实现高性能。

姚祖(Yaozu)等人 [88] 提出了一种 7 自由度(DoF)增强技术,用于将直线透视图像转换为鱼眼图像。它包含了世界与鱼眼坐标系之间的空间关系(6 自由度)以及虚拟鱼眼相机的焦距变化(1 自由度)。在训练阶段,直线透视图像会被转换为具有 7 自由度的鱼眼图像,以模拟由位置、方向和焦距各不相同的相机所拍摄的鱼眼图像。这在处理畸变的鱼眼数据时提高了模型的准确性和鲁棒性。7 自由度增强技术为鱼眼相机的语义分割提供了一种通用解决方案,也为自动驾驶的图像增强提供了明确的参数设置,并创建了 “鱼眼城市景观”(FisheyeCityScapes)[88] 数据集。

图14。来自森林景观数据集[2]上的OmniDet框架的原始鱼眼图像的定性结果。第一列表示来自前、左、右、后摄像机的输入图像,第二列表示距离估计,第三列表示语义分割图,第四列表示广义目标检测表示,第五列表示运动分割。

目标检测:鱼眼图像中的目标检测受径向畸变的影响最为严重。由于鱼眼图像形成过程中固有的畸变,与光轴成不同角度的物体看起来差异很大,这使得物体检测变得困难(见图 14)。矩形边界框往往并非物体大小的最佳表示方式,有时其面积仅是标准边界框的一半,而有时该边界框本身的面积又会是目标物体实际面积的两倍。实例分割能够提供物体的精确轮廓,但对其进行标注的成本要高得多,而且还需要一个边界框估计步骤。校正能带来显著益处,但也存在第三节所讨论的副作用。
“鱼眼检测”(FisheyeDet)[91] 强调了构建一个有用数据集的必要性。他们通过对帕斯卡视觉对象分类(Pascal VOC)数据集 [92] 施加畸变,创建了一个模拟鱼眼数据集。四边形表示以及畸变形状匹配有助于 “鱼眼检测” 的实施。此外,还提出了无先验鱼眼表示法(NPFRM)来提取不使用镜头模式和校准模式的自适应畸变特征,同时还提出了畸变形状匹配(DSM)策略,以便在鱼眼图像中紧密且稳健地定位物体。
他们利用由畸变物体轮廓形成的不规则四边形边界框,通过将其与无先验鱼眼表示法和畸变形状匹配策略相结合,创建了一个端到端的网络探测器。

球网”(SphereNet)[93] 及其变体 [94]、[95]、[96] 在球面上构建卷积神经网络(CNNs),并且还明确地对畸变不变性进行编码。“球网” 通过调整卷积滤波器的采样位置并将其环绕在球面上以消除畸变的方式来实现这一点。利用基于常规卷积建模的 “球网”,可以将现有的透视卷积神经网络模型迁移到全向场景中。此外,水平和垂直方向上的准畸变表明鱼眼图像并不符合球面投影模型。杨等人 [97] 对多个将等距柱状投影(ERP)序列作为直接输入数据的检测算法的结果进行了比较,结果显示,如果不将等距柱状投影序列投影为常规二维图像,卷积神经网络只能达到一定的准确率。

“鱼眼 YOLO”[14]、[98] 研究了诸如定向边界框、椭圆以及通用多边形等多种表示形式。利用交并比(IoU)指标以及精确的实例分割真实标注,他们对这些表示形式进行了比较。他们提出了一种新的曲线边界框方法,该方法对于鱼眼畸变相机模型来说具有最佳特性,同时还提出了一种曲率自适应周长采样方法来生成多边形顶点,相较于均匀采样,这种方法可将平均精度均值(mAP)分数提高 4.9%。总体而言,所提出的多边形卷积神经网络模型将平均交并比相对准确率提高了 40.3%。

污渍问题:环视相机直接暴露在外部环境中,容易受到污渍沾染。相比之下,前置相机位于挡风玻璃后面,受污渍影响的可能性较小。这一任务最初在 [99] 中被正式定义。污渍区域有两种类型:不透明的(泥土、灰尘、积雪)和透明的(水、油以及油脂)。由于背景可见度有限,透明污渍可能难以识别。污渍会导致感知精度显著下降,因此,对于更高级别的自动驾驶,会采用喷水清洁系统或者更先进的基于超声波的清洁方式。即便相机未被清洁,也需要进行污渍检测,以便在图像质量下降的区域增强视觉算法的不确定性处理能力。由于收集污渍数据比较困难,“脏污生成对抗网络”(DirtyGAN)[100] 提出利用生成对抗网络(GANs)在真实场景上人工生成不同的污渍图案。污渍的边界模糊且界定不清晰,因此人工标注可能会存在主观性且容易产生误差。达斯(Das)等人 [101] 提出了瓦片级污渍分类方法,以处理有误差的标注并提高计算效率。乌里卡尔(Uricar)等人 [102] 提出利用基于集成的伪标签半监督学习方法来自动优化有误差的标注。

从感知角度来看,处理污渍问题有两种方式。一种方式是纳入鲁棒性措施来改进感知算法。例如,萨卡里迪斯(Sakaridis)等人 [103] 提出了一种能识别雾天场景的语义分割方法。另一种方式是对污渍区域进行修复。泥土或水滴通常是静止的,偶尔会有流动水滴的低频动态变化,因此,使用基于视频的修复技术会更有效。波拉夫(Porav)等人 [104] 通过结合使用立体相机和滴水装置来模拟相机镜头上的雨滴,对透明污渍问题进行了探索。这样做是为了自动标注有雨渍的像素,他们还训练了一个卷积神经网络(CNN)来修复有雨渍的区域。乌里卡尔(Uricar)等人 [105] 提供了一个针对环视相机的去污渍数据集基准。他们使用三个不同程度沾染污渍且彼此邻近的相机,以及一个未沾染污渍、可作为真实标注依据的第四个相机。他们实现了一个多帧基准方法,该方法能够随着时间推移利用污渍遮挡区域可见性变化的优势。

太阳眩光检测是与污渍问题密切相关的一项任务。在手动驾驶和自动驾驶中,太阳眩光都是一个典型问题。太阳眩光会导致图像曝光过度,这对视觉感知算法有重大影响。对于更高级别的自动驾驶而言,系统能够识别出存在太阳眩光(这可能会降低系统性能)是至关重要的。关于自动驾驶中太阳眩光检测的文献比较匮乏,其检测方法主要基于图像处理算法来检测饱和亮度区域并提取相关部分。从安全系统的角度来看,需要一种高度鲁棒性的算法。因此,亚希奥伊(Yahiaoui)等人 [106] 创建了两种互补的算法,它们利用传统图像处理技术和卷积神经网络来学习全局上下文信息。

充电板辅助:电动汽车正变得越来越普及,感应式充电板是一种实用且有效的充电方式。然而,由于驾驶员通常很难精确地将车辆对准以实现最佳感应充电,所以理想的解决方案是对充电板进行自动对准。使用环视相机是很理想的,因为这属于近场感知任务,并且可以作为自动泊车系统的扩展功能来实现。达哈尔(Dahal)等人 [107] 提出了一种基于环视相机框架的方法,该方法能自动识别、定位车辆,并使其与感应充电板对齐。充电板的外观设计并不统一,而且往往无法提前识别。因此,采用依赖离线训练的系统偶尔会失效。此后,他们提出了一种自监督在线学习技术,该技术通过利用驾驶员手动将车辆与充电板对齐时的操作,以及弱监督语义分割和深度预测,学习一个分类器来自动标注视频序列中的充电板,以便进行进一步训练。当遇到之前未检测到的充电板时,驾驶员需要手动将车辆对准一次,因为位于地面上的充电板是平的,从远处不容易看到和发现。为了实现从更广泛的范围进行对准,他们提议采用视觉同时定位与地图构建(SLAM)框架来学习相对于充电板的地标。

拖车辅助:拖车常被用于运输产品和娱乐设备。即使对于经验丰富的驾驶员来说,操控带有拖车的车辆(尤其是倒车时)也可能很棘手且令人不愉快。因此,在这些情况下,驾驶员辅助系统就派上用场了。通常会使用单个后视鱼眼相机感知算法来实现相关功能。由于没有针对这一难题的公开可用数据集,所以关于该主题的学术研究相对较少。这促使达哈尔(Dahal)等人 [108] 详细阐述了所有拖车辅助应用场景,并针对拖车感知问题提出了一种基于卷积神经网络(CNN)的解决方案。通过深度学习,他们构建了一个用于拖车检测和铰接角度估计任务的数据集。他们利用高效的卷积神经网络和长短期记忆(LSTM)模型,通过对拖车及其角度进行检测和跟踪,开发出了相关方法并获得了较高的准确率。

B. 几何任务

1)深度估计:它涉及到在一个像素水平上估计到一个物体(或任何平面)的距离,如图14所示。计算相对于照相机平面的距离仍然是非常具有挑战性的。目前,大部分的工作是在纠正的KITTI [109]序列,其中桶失真被去除。对于针孔相机,深度定义为到相机平面的垂直距离,即z。前运动结构(SfM)接近[110],[111],通过参数化网络的不偶预测到非投影操作来估计逆深度。这种参数化不适用于鱼眼相机,因为它们经历了巨大的畸变,从而获得了与针孔相机的外极线相比的角差异。为了应用与针孔相同的方法,我们需要修正鱼眼图像,这将导致第三-F节所述的视场损失。然而,同样适用于针孔投影模型相机的多视图几何[112]原理也适用于鱼眼图像。通过从不同的角度观察场景,并建立它们之间的对应关系,可以估计出潜在的几何结构。值得注意的是,当使用SfM方法时,考虑CNN输出范数比角距离差,因为它将使视图合成操作的角距离难以参数化。此外,对于大于180◦的视场,z的值可以(接近于)零或负,这也会导致数值问题,因为模型通常通过z计算有一些直接或间接的划分。相反,估计径向距离是有用的,即范数√x2+y2+z2而不是z。范数总是正的和非零的(除了x,y,z = 0),并允许一个更稳定的数值实现。

在激光雷达距离测量上,如KITTI,深度预测模型可以以有监督的方式学习。Ravi Kumar等人[113]采用了类似的方法,证明了利用激光雷达地面真相训练鱼眼图像来预测距离地图的能力。尽管如此,激光雷达的数据是非常稀疏和昂贵的建立良好的口径。为了克服这个问题,距离网[114]专注于解决最具挑战性的几何之一

问题,即利用基于图像的重建技术对原始的鱼眼相机进行距离估计,这是一个艰巨的任务,因为二维图像到三维表面之间的映射是一个缺乏约束的问题。深度估计也是一个不确定的问题,因为每个像素有几个局部错误的深度,这也可以复制新的观点。[16]介绍了一种通用的端到端自监督训练框架,用于估计不同相机模型的原始失真图像上的单眼深度图。作者展示了框架在原始KITTI和森林景观数据集上的工作结果。

“同步距离网络”(SynDistNet)[115] 学习了语义感知几何表示,这种表示能够在自监督学习的运动恢复结构(SfM)情境下消除光度模糊性。它们纳入了一种广义的鲁棒损失函数 [116],该函数在显著提升性能的同时,消除了对光度损失进行超参数调整的必要性。它们采用了一种语义掩蔽方法,以减少因动态物体违反静态世界假设而产生的伪影。与先前针对鱼眼图像的方法 [16]、[114] 相比,“同步距离网络” 大幅降低了均方根误差(RMSE),降幅达 25%。当前大多数深度估计方法依赖单个相机,无法无缝推广到多个鱼眼相机上。此外,该模型必须在具有不同相机几何结构的多种不同尺寸的汽车产品线中实施。即便在同一条汽车产品线内,由于制造公差,相机内参数也会有所不同。深度神经网络似乎确实对这些变化很敏感,对每个相机实例进行训练和测试几乎是不可能的。因此,“奇异值分解距离网络”(SVDistNet)[117] 提出了一种创新的相机几何自适应多尺度卷积,它将相机参数作为条件输入,使网络能够推广到之前未知的鱼眼相机上。

视觉里程计:刘等人 [118] 描述了一种用于鱼眼立体相机的传统直接视觉里程计技术。该技术可同时进行相机运动估计和半稠密重建。该流程中有两个线程:一个用于跟踪,另一个用于建图。他们在跟踪线程中使用半稠密直接图像对齐来估计相机位姿。为规避极曲线问题,采用平面扫描立体算法进行立体匹配并初始化深度。崔等人 [119] 展示了一种使用鱼眼相机的大规模、实时稠密几何建图技术。相机位姿是从全球导航卫星系统 / 惯性导航系统GNSS/INS)获取的,但他们也提出可以从视觉惯性里程计(VIO)框架中获取。深度图融合会使用通过这些途径获取的相机位姿。亨等人 [120] 描述了一种用于鱼眼立体相机的半直接视觉里程计算法。在跟踪线程中,他们在估计相机位姿的同时跟踪有朝向的图像块;在建图线程中,他们会估计每个待跟踪新图像块的坐标和表面法线。表面法线估计使我们能够从不同视角跟踪图像块。他们在该技术中不采用描述符或强描述符匹配来检测图像块对应关系,而是采用基于光流一致性的方法来寻找图像块对应关系。近来,已经出现了许多针对鱼眼相机的视觉里程计方法,包括 [121] 和 [122]。此外,格珀特(Geppert)等人 [121] 使用了一个多相机视觉惯性里程计框架,将视觉惯性定位技术扩展到大规模环境中,从而形成了一个能够进行精确且无漂移位姿估计的系统。拉维・库马尔(Ravi Kumar)等人 [123] 将卷积神经网络(CNNs)应用于视觉里程计任务,该任务在单目距离估计框架中充当辅助任务。

运动分割:它被定义为在一对图像序列中识别诸如车辆和行人等独立运动物体(像素),并将它们与静态背景区分开来的任务,如图 14 所示。它被用作一种不依赖外观、利用运动线索来检测任意运动物体(如稀有动物,例如袋鼠或驼鹿)的方法。它最初在 “运动分割网络”(MODNet)[124] 中针对自动驾驶进行了探索。近来,实例级运动分割在 “实例运动分割”(InstanceMotSeg)[125] 中被定义并进行了探索。“鱼眼运动分割网络”(FisheyeMODNet)[126] 将其扩展到未经校正的鱼眼相机上。当时并没有明确的运动补偿,但将其作为未来工作提及了。马里奥蒂(Mariotti)等人 [79] 基于车辆里程计 [127],采用经典方法来完成这一任务。他们对光流进行了球面坐标变换,并调整了正高度、深度和极线约束,使其适用于这种设置。他们还提出了反向平行约束,以消除车辆与本车平行移动时通常会出现的运动视差模糊性。

C. 时间相关任务

尽管像深度和运动这类几何任务可以使用多帧图像进行训练和推理,但输出结果仅针对单帧图像进行定义。我们将输出结果基于多帧图像定义的任务称为时间相关任务。这类任务通常需要对多帧连续图像进行标注。

跟踪:目标跟踪是常见的时间相关任务,需要在多帧图像中对目标进行关联。在 [128] 中针对环视相机对运动物体的检测和跟踪进行了探索,他们采用了一种经典的基于光流的跟踪方法。“广视角行人检测与跟踪头顶监控数据集”(WEPDTOF)[129] 是近期发布的一个数据集,用于在头顶监控场景下的鱼眼相机上进行行人检测和跟踪。尽管它并非汽车领域的数据集,但它涵盖了在鱼眼相机上开发跟踪系统所面临的必要挑战。轨迹预测与跟踪密切相关,在轨迹预测任务中,必须对感兴趣目标在下一组图像帧中的位置进行预测。在自动驾驶的情况下,这项任务尤其会在三维鸟瞰视角空间中进行。“基于圆柱校正的鱼眼前置相机车辆轨迹预测”(PLOP)算法 [130] 探索了在对鱼眼前置相机图像应用圆柱校正后进行车辆轨迹预测的方法。

重识别:重识别(Re-ID)是对不同相机所检测到的物体进行关联的任务,它也可以包括跨相机随时间变化的关联。吴等人 [131] 提议在环视相机上进行车辆重识别,并强调了两个重大挑战:首先,由于鱼眼畸变、遮挡、截断以及其他因素,在单相机视角下,很难从之前的图像帧中检测到同一辆车。其次,从多相机视角来看,同一辆车的外观会因所用相机的不同而发生极大变化。他们提出了一种新的质量评估机制,以抵消跟踪框漂移和目标一致性的影响。他们采用了一种基于注意力机制的重识别网络,并将其与一种空间约束方法相结合,以提升不同相机的性能。

赵等人 [132] 提出了一种行人重识别算法。它包含一个单相机检测与跟踪模块以及一个应用于多相机视图的双相机重识别模块。检测模块利用 “YOLOv3”[133] 在单相机视角视频中识别行人。跟踪模型通过将 “OSnet”[134] 与 “DeepSORT”[135] 相结合,对行人进行跟踪并为每个已识别的行人分配一个身份标识。这两个模型都通过迁移学习流程进行了适配,以适用于鱼眼图像。

同时定位与地图构建(SLAM):特征对应包括关键点检测、描述以及匹配,它是同时定位与地图构建(SLAM)系统中的首要步骤。“鱼眼超点”(FisheyeSuperPoint)[136] 为鱼眼图像引入了一种独特的训练和评估方法。作为起点,他们采用了 “超点”(SuperPoint)[137],这是一种自监督的关键点探测器和描述符,已经产生了当前最先进的单应性预测结果。他们提出了一个鱼眼适配框架,用于在无畸变的鱼眼图像上进行训练;通过鱼眼扭曲操作在鱼眼图像上进行自监督训练。鱼眼图像经过中间投影到单位球面这一阶段后,被转换为一幅新的畸变图像,相机的虚拟位姿可以在 6 自由度上进行改变。特里帕蒂(Tripathi)等人 [138] 利用 “ORB SLAM” 流程,探索了使用环视鱼眼相机进行重定位的问题。其目标是对诸如公寓小区这样的私人区域进行地图绘制,并依据该地图进行重定位,以辅助自动泊车。他们在原始鱼眼图像上进行特征检测,并分析了不同特征对应算法在原始鱼眼相机上的对比情况。

D. 多任务模型

多任务学习(MTL)是通过从多任务监督信号中学习共同的共享表示来进行的。自从深度学习出现以来,许多密集预测任务(即生成像素级预测的任务)在性能方面都有了显著提升。通常情况下,这些任务是逐个学习的,每个任务都需要训练其自身的神经网络。然而,近来的多任务学习方法 [149][150] 通过利用学习到的共享表示联合处理多个任务,在性能、计算复杂度以及内存占用方面都展现出了颇具前景的成果。

对于鱼眼相机,西斯图(Sistu)等人 [151] 提出了一个用于学习目标检测和语义分割的联合多任务学习模型。其主要目标是在低功耗的片上嵌入式系统上实现实时性能,对这两项任务使用相同的编码器。他们利用一个由两个解码器共享的类似 ResNet10 的简单编码器构建了一个高效的架构。目标检测使用 YOLO v2 解码器,而语义分割则使用全卷积网络(FCN8)解码器。梁(Leang)等人探索了鱼眼相机上两项任务设置的不同任务加权方法 [152]。“鱼眼多网”(FisheyeMultiNet)[153] 从基于相机的深度学习算法角度讨论了自动泊车系统的设计与实现。在低功耗嵌入式系统上,“鱼眼多网” 是一个实时的多任务深度学习网络,它能够识别泊车所需的所有物体。其配置是一个以 15 帧 / 秒运行的四相机系统,可执行三项任务:目标检测、语义分割以及污渍检测。

最后,在 “全向检测”(OmniDet)[123] 中提出了仅使用相机对环境近场感知进行整体实时场景理解的方法。他们构建了一个近场感知系统,该系统构成了一个如图 14 所示的 L3 级自动驾驶技术栈。借助这个框架,我们可以通过一个在嵌入式系统上以 60 帧 / 秒运行、包含六项任务的单一深度学习模型,联合对几何、语义、运动、定位以及污渍情况进行理解和推理。受拉希德(Rashed)等人 [154] 所证明的深度和运动等几何任务能够辅助语义分割这一观点的启发,实现了跨任务的协同交叉关联。相机校准被转换为逐像素张量并输入到模型中,以便模型能够适应各种相机内参数。索布(Sobh)等人 [155] 研究了在使用 “全向检测” 的多任务设置中对抗性攻击的影响,这对于安全关键型应用来说非常重要。这些测试针对有目标和无目标的情况处理了白盒攻击和黑盒攻击,还研究了在攻击一项任务时使用简单防御策略以及分析其对其他任务影响的情况。

五、公开数据集与研究方向

A. 数据集

构建汽车领域的数据集成本高昂且耗时 [156],目前这是鱼眼感知研究进展的主要瓶颈。在表 II 中,我们总结了已发布的鱼眼相机数据集。“木景”(WoodScape)是一个利用四个鱼眼相机围绕本车进行 360 度感知的综合性数据集。它旨在对当前仅提供窄视场角图像的汽车数据集进行补充。其中,“KITTI”[157] 是一个具有不同类型任务的开创性数据集。它是首个全面的鱼眼汽车数据集,能够详细评估诸如鱼眼图像分割、目标检测以及运动分割等计算机视觉算法 [158]。环视数据集 “木景” 的合成变体是 “合成木景”(SynWoodScape)[139]。它弥补并扩展了 “木景” 的许多不足之处。“木景” 的作者们无法收集像素级光流和深度的真实标注信息,因为无法同时使用四个相机对不同帧进行采样。这意味着在 “合成木景” 中可以设想的多相机算法无法在 “木景” 中实现。

它包含来自合成数据集的 8 万张带有标注的图像。

“KITTI 360°” 是一个郊区数据集,具有更广泛的输入模态、大量的语义实例标注以及精确的定位信息,有助于视觉、计算和机器人领域的研究。与 “木景”(WoodScape)相比,“KITTI 360°” 的不同之处在于它提供了时间上连贯的语义实例标注、三维激光扫描以及用于透视图像和全向图像推理的三维标注。“鱼眼城市景观”(FisheyeCityScapes)[88] 提出了一种 7 自由度扩展,这是一种虚拟鱼眼数据增强方法。该方法利用径向畸变模型将直线数据集转换为鱼眼数据集,它合成了由处于不同方向、位置和焦距值的相机所拍摄的鱼眼图像,极大地提高了鱼眼语义分割的泛化性能。“牛津机器人汽车”(Oxford RobotCar)[141] 是一个大规模数据集,侧重于自动驾驶车辆的长期自主性。定位和地图构建是该数据集的主要任务,它使得针对自动驾驶车辆和移动机器人的持续学习研究成为可能。

“西奥多”(THEODORE)[142] 是一个用于室内场景的大型非汽车合成数据集,包含 10 万张高分辨率、16 类不同的俯视鱼眼图像。为了创建该数据集,他们构建了一个包含客厅、各种人物角色以及室内纹理的三维虚拟环境。除了记录来自虚拟环境的鱼眼图像外,作者们还为语义分割、实例掩码以及用于目标检测的边界框构建了标注信息。“全景观”(OmniScape)数据集包含安装在摩托车上的两个前置鱼眼图像和折反射立体 RGB 图像,同时还记录了语义分割、深度序列以及通过速度、角速度、加速度和方向体现的车辆动力学信息。它还包含超过 1 万帧由《侠盗猎车手 5》(GTA V)和《卡拉》(CARLA)记录的数据,这些数据也可扩展到其他模拟器中。在 “皮罗波”(PIROPO)(使用透视和全向相机拍摄的室内人员)项目中,利用全向相机和透视相机在两个不同房间里记录了图像序列。这些序列展示了处于不同状态(如行走、站立和坐着)的人员情况。其真实标注信息是以点为基础的,并且同时提供了有标注和无标注的序列(场景中的每个人都由其头部中心的一个点来表示),总共可获取超过 10 万张有标注的图像帧。

 

“斯坦福行走”(Go Stanford)[145] 数据集包含来自 25 个以上室内环境的大约 24 小时的视频。该实验侧重于利用鱼眼图像对室内可通行性进行估计。“Mo2Cap2”[146] 数据集用于在各种不受约束的日常活动中估计以自身为中心的人体三维姿态。该数据集旨在解决在现实世界无约束场景下进行诸如行走、骑自行车、做饭、体育运动以及办公室工作等各种活动时的移动三维姿态估计难题。体育运动、动画制作、医疗保健动作识别、运动控制以及性能分析等领域都能从这些三维姿态中受益。“LMS 鱼眼”(LMS Fisheye)[147] 数据集旨在为研究人员提供视频序列,以便开发和测试为鱼眼相机开发的运动估计算法,它同时提供了由布兰德(Blender)生成的合成序列以及由鱼眼相机记录的实际序列。

 

“自我捕捉”(EgoCap)[148] 是一个无标记、以自身为中心的实时动作捕捉数据集,用于通过安装在头盔上的轻型立体对鱼眼相机进行全身骨骼姿态估计。

或是虚拟现实头戴设备 —— 光学内入法。“LSD - SLAM”[122] 数据集源自一种新的实时单目同时定位与地图构建(SLAM)方法。它是完全直接的(即,它不使用关键点 / 特征),并且能够在笔记本电脑上实时创建大规模的半稠密地图。研究人员可以使用这个数据集来开展跟踪(直接图像对齐)和建图(逐像素距离滤波)方面的工作,它能直接实现一个统一的全向模型,该模型能够对视场角大于 180° 的中心成像设备进行建模。

B. 研究方向

畸变感知卷积神经网络(CNNs):卷积神经网络(CNNs)会自然地利用图像网格中的平移不变性,而在鱼眼图像中,由于空间变化的畸变,这种平移不变性被打破了。已经有人提出了球形卷积神经网络(Spherical CNNs)[93][159],它们可直接用于球形径向畸变模型。然而,汽车镜头更为复杂,球形模型并不适用。将球形卷积神经网络推广到更复杂的鱼眼流形表面会是一个有趣的研究方向。核变换网络(Kernel Transformer Networks)[95] 能有效地将卷积算子从透视投影转换到全向图像的等距柱状投影,它更适合推广到鱼眼图像上。

处理时间变化:正如我们之前所讨论的,由于径向畸变导致外观变化更大,鱼眼相机的目标探测器的样本复杂度有所增加。对于时间相关任务来说,这一情况更为严重,因为这些任务需要在两帧图像之间匹配特征,而这两帧图像可能存在两种不同的畸变。例如,在鱼眼相机的情况下,目标跟踪和重识别的难度显著增加。跟踪一个从静态相机左侧移动到右侧的行人,就需要处理因径向畸变而产生的较大外观变化。同样,对于一个静止的行人,相机的水平和垂直运动也会导致较大的变化。对于像跟踪这类的点特征对应问题来说,这也是一个挑战。一种解决方案可能是将径向畸变明确地嵌入到特征向量中,以便在匹配时加以利用。

鸟瞰视角感知:在自动驾驶中,将图像上的检测结果提升到三维空间是至关重要的。通常是通过逆透视映射(IPM)[160] 来实现这一点的,该方法假定地面是平坦的。也可以通过使用深度估计或与三维传感器进行融合来增强这一效果 [161]。近来有一种趋势是在网络中隐式地使用逆透视映射,直接输出三维结果 [162][163]。通常是通过使用一个可学习的校正层来转换抽象的编码器特征,以此作为在输入层面执行逆透视映射的替代方法来实现的。由于卷积神经网络拥有更多的上下文信息,而且可学习的变换可以更加灵活,所以这种方法比逐像素的逆透视映射效果更好 [163]。对于针孔相机而言,逆透视映射是一种线性变换,设计编码器特征的空间变换器相对容易。然而,对于鱼眼相机来说,逆透视映射是一个复杂的非线性算子,直接在鸟瞰视角空间中输出结果仍然是一个有待解决的问题。

多相机建模:目前大多数环视相机方面的工作都是将四个相机中的每一个独立对待,并执行感知算法。或许可以

更理想的模型,所有四个环绕视野相机联合。首先,它将帮助检测通过两个或三个摄像头(前、左、后)可见的大型车辆(如运输卡车)。其次,它消除了对在多个摄像机中看到的物体的重新识别(见图10)和对单个检测的后处理,形成了像车道模型一样的统一输出。多摄像机模型将更有效地聚合信息,产生更最优的输出。[164]开发了一种经典的几何方法,将多个相机视为单个相机。然而,最近有一些工作,利用多个摄像机作为输入到一个单一的感知模型[163],[165]。他们利用了针孔相机与最小的重叠视野。为环绕视图相机建模明显更具挑战性。

图15。近场和远场前摄像机图像形成不对称立体对。

近场与远场相机的统一建模:下一代自动驾驶系统的一种典型配置包含使用四个环视相机实现近场的 360 度全覆盖,以及六个远场相机(一个前置、一个后置、两侧各两个)[166]。正如在第三章 B 节所讨论的那样,它们有着截然不同的视场角和探测范围。因此,要对所有相机进行统一建模(这是对上述多相机建模的拓展)是颇具挑战性的。图 15 展示了车辆前部区域的近场和远场图像。它们构成了一对非对称立体像对,在此情况下,相较于存在根本性模糊问题、更具挑战性的单目深度估计,深度能够更容易地被计算出来。目前,还没有同时包含近场和远场相机的公开数据集来助力这项研究。

六、结论

鱼眼相机是自动驾驶系统中最常见的传感器之一。尽管它应用广泛,但由于它是一种特殊的相机传感器,汽车领域对它的了解有限,而且标准算法也无法直接通用到它身上。这项工作详细阐述了如何着手开展环视鱼眼相机开发工作。本文一部分是教程,详细描述了鱼眼几何结构和模型;另一部分是综述,探讨了基于鱼眼相机开发的感知算法。最后,我们给出了有待探索的未来研究方向。

参考文献
[1] R. 伍德(R. Wood),“鱼眼视角与水下视觉”,《哲学杂志》(Phil. Mag.),第 12 卷,第 6 期,第 159 - 162 页,1908 年。
[2] S. 约加玛尼(S. Yogamani)等人,“木景(WoodScape):用于自动驾驶的多任务、多相机鱼眼数据集”,《电气与电子工程师协会 / 计算机视觉与模式识别国际会议论文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis.,缩写为 ICCV),2019 年 10 月,第 9308 - 9318 页。
[3] W. N. 邦德(W. N. Bond),“一种用于云记录的广角镜头”,《哲学杂志》,第 44 卷,第 263 期,第 999 - 1001 页,1922 年。
[4] K. 宫本(K. Miyamoto),“鱼眼镜头”,《美国光学学会杂志》(J. Opt. Soc. Amer.),第 54 卷,第 8 期,第 1060 - 1061 页,1964 年 8 月。
[5] P. D. 托马斯(P. D. Thomas),《大地测量学与制图学中的等角投影》(Conformal Projections in Geodesy and Cartography)。美国华盛顿特区:美国政府印刷局,1952 年。
[6] (2019 年 12 月)。《鱼眼镜头如何主宰音乐领域》。[在线]。可获取网址:https://youtu.be/YNQzqEAphjs
[7] H. 金(H. Kim)、J. 郑(J. Jung)和 J. 白(J. Paik),“基于鱼眼镜头相机的广视角监控系统”,《光学》(Optik),第 127 卷,第 14 期,第 5636 - 5646 页,2016 年 7 月。
[8] T. A. 德凡蒂(T. A. DeFanti)等人,“星穴(StarCAVE),第三代洞穴式虚拟现实光端口(OptIPortal)”,《未来计算机系统》(Future Gener. Comput. Syst.),第 25 卷,第 2 期,第 169 - 178 页,2009 年 2 月。
[9] L. 孟(L. Meng)、T. 平山(T. Hirayama)和 S. 大柳(S. Oyanagi),“基于深度学习的带全景相机的水下无人机用于自动鱼类识别”,《电气与电子工程师协会开放获取期刊》(IEEE Access),第 6 卷,第 17880 - 17886 页,2018 年。
[10] K. 邱(K. Qiu)、T. 刘(T. Liu)和 S. 沈(S. Shen),“基于边缘对齐的空中机器人基于模型的全局定位”,《国际机器人与自动化会议论文集》(Proc. Int. Conf. Robot. Autom.),第 2 卷,2017 年,第 1256 - 1263 页。
[11] C. R. 桑斯坦(C. R. Sunstein),“后方视野以及经济分析中一些未解决的问题(附体验商品相关说明)”,《效益成本分析杂志》(J. Benefit-Cost Anal.),第 10 卷,第 3 期,第 317 - 350 页,2019 年。
[12] C. 休斯(C. Hughes)、M. 格拉文(M. Glavin)、E. 琼斯(E. Jones)和 P. 丹尼(P. Denny),“用于汽车应用的广角相机技术综述”,《英国工程技术学会智能交通系统》(IET Intell. Transp. Syst.),第 3 卷,第 1 期,第 19 - 31 页,2009 年 3 月。
[13] M. 班迪奥帕德耶(M. Bandyopadhyay)、A. 库马尔(A. Kumar)和 A. 帕塔亚普拉卡尔(A. Pathayapurakkal),“基于鱼眼图像的交叉交通警报系统”,《计算机视觉、模式识别、图像处理与图形学》(Computer Vision, Pattern Recognition, Image Processing, and Graphics),R. V. 巴布(R. V. Babu)、M. 普拉萨纳(M. Prasanna)和 V. P. 南布迪里(V. P. Namboodiri)编著,新加坡:施普林格出版社,2020 年,第 43 - 52 页。
[14] H. 拉希德(H. Rashed)等人,“用于自动驾驶的鱼眼相机上的广义目标检测:数据集、表示形式及基准”,《电气与电子工程师协会冬季计算机视觉应用会议论文集》(Proc. IEEE Winter Conf. Appl. Comput. Vis.,缩写为 WACV),2021 年 1 月,第 2272 - 2280 页。
[15] M. 海姆伯格(M. Heimberger)、J. 霍根(J. Horgan)、C. 休斯(C. Hughes)、J. 麦克唐纳(J. McDonald)和 S. 约加玛尼(S. Yogamani),“自动泊车系统中的计算机视觉:设计、实现及挑战”,《图像与视觉计算》(Image Vis. Comput.),第 68 卷,第 88 - 101 页,2017 年 12 月。
[16] V. R. 库马尔(V. R. Kumar)、S. 约加玛尼(S. Yogamani)、M. 巴赫(M. Bach)、C. 维特(C. Witt)、S. 米尔茨(S. Milz)和 P. 马德尔(P. Mader),“无校正深度网络(UnRectDepthNet):使用通用框架处理常见相机畸变模型的自监督单目深度估计”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,缩写为 IROS),2020 年 10 月,第 8177 - 8183 页。
[17] A. W. 菲茨吉本(A. W. Fitzgibbon),“多视图几何与镜头畸变的同时线性估计”,《计算机视觉与模式识别会议论文集》(Proc. CVPR),第 1 卷,2001 年,第 125 - 132 页。
[18] A. 巴苏(A. Basu)和 S. 利卡迪(S. Licardie),“鱼眼镜头的替代模型”,《模式识别快报》(Pattern Recognit. Lett.),第 16 卷,第 4 期,第 433 - 441 页,1995 年。
[19] F. 德韦尔奈(F. Devernay)和 O. 福热拉斯(O. Faugeras),“直线必须是直的:结构化环境场景的自动校准及畸变消除”,《机器视觉应用》(Mach. Vis. Appl.),第 13 卷,第 1 期,第 14 - 24 页,2001 年。
[20] J. 坎纳拉(J. Kannala)和 S. S. 布兰特(S. S. Brandt),“适用于常规镜头、广角镜头和鱼眼镜头的通用相机模型及校准方法”,《电气与电子工程师协会模式分析与机器智能汇刊》(IEEE Trans. Pattern Anal. Mach. Intell.),第 28 卷,第 8 期,第 1335 - 1340 页,2006 年 8 月。
[21] C. 盖耶(C. Geyer)和 K. 达尼利迪斯(K. Daniilidis),“中心全景系统的统一理论及实际应用”,《欧洲计算机视觉会议论文集》(Proc. Eur. Conf. Comput. Vis.),2000 年,第 445 - 461 页。
[22] B. 霍穆坚科(B. Khomutenko)、G. 加西亚(G. Garcia)和 P. 马蒂内(P. Martinet),“一种增强型统一相机模型”,《电气与电子工程师协会机器人学与自动化快报》(IEEE Robot. Automat. Lett.),第 1 卷,第 1 期,第 137 - 144 页,2016 年 1 月。
[23] V. 乌先科(V. Usenko)、N. 德梅尔(N. Demmel)和 D. 克雷默斯(D. Cremers),“双球面相机模型”,《国际 3D 视觉会议论文集》(Proc. Int. Conf. 3D Vis.,缩写为 3DV),2018 年 9 月,第 552 - 560 页。
[24] W. -J. 朴(W. -J. Park)、B. -S. 金(B. -S. Kim)、D. -E. 徐(D. -E. Seo)、D. -S. 金(D. -S. Kim)和 K. -H. 李(K. -H. Lee),“泊车辅助系统中使用超声波传感器的泊车位检测”,《电气与电子工程师协会智能车辆研讨会论文集》(Proc. IEEE Intell. Vehicles Symp.),2008 年 6 月,第 1039 - 1044 页。
[25] J. K. 苏尔(J. K. Suhr)和 H. G. 郑(H. G. Jung),“基于传感器融合的空泊车位检测与跟踪”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 15 卷,第 1 期,第 21 - 36 页,2014 年 2 月。

[26] X. 唐(X. Tang)、Z. 张(Z. Zhang)和 Y. 秦(Y. Qin),“基于雷达与视觉融合的道路目标检测与跟踪综述”,《电气与电子工程师协会智能交通系统杂志》(IEEE Intell. Transp. Syst. Mag.),第 14 卷,第 5 期,第 103 - 128 页,2022 年 9 月 / 10 月。
[27] A. 勒夫勒(A. Loeffler)、J. 龙茨卡(J. Ronczka)和 T. 费希纳(T. Fechner),“使用 24 GHz 短程汽车雷达进行停车场测量”,《第 16 届国际雷达研讨会论文集》(Proc. 16th Int. Radar Symp.,缩写为 IRS),2015 年 6 月,第 137 - 142 页。
[28] M. R. 施密德(M. R. Schmid)、S. 阿特斯(S. Ates)、J. 迪克曼(J. Dickmann)、F. 冯・洪德尔斯豪森(F. Von Hundelshausen)和 H. -J. 武恩施(H. -J. Wuensche),“使用分层动态占用网格进行泊车位检测”,《电气与电子工程师协会智能车辆研讨会论文集》(Proc. IEEE Intell. Vehicles Symp.,缩写为 IV),2011 年 6 月,第 254 - 259 页。
[29] V. 莱基奇(V. Lekic)和 Z. 巴比奇(Z. Babic),“使用生成对抗网络的汽车雷达与相机融合”,《计算机视觉与图像理解》(Comput. Vis. Image Understand.),第 184 卷,第 1 - 8 页,2019 年 7 月。
[30] R. 瓦尔加(R. Varga)、A. 科斯特亚(A. Costea)、H. 弗洛雷亚(H. Florea)、I. 焦桑(I. Giosan)和 S. 内德夫斯基(S. Nedevschi),“用于 360 度环境感知的超级传感器:利用图像特征进行点云分割”,《电气与电子工程师协会第 20 届智能交通系统国际会议论文集》(Proc. IEEE 20th Int. Conf. Intell. Transp. Syst.,缩写为 ITSC),2017 年 10 月,第 1 - 8 页。
[31] C. 艾辛(C. Eising)、J. 霍根(J. Horgan)和 S. 约加玛尼(S. Yogamani),“使用环视鱼眼相机的低速车辆自动化近场感知”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 9 期,第 13976 - 13993 页,2022 年 9 月。
[32] J. 马利克(J. Malik)等人,“计算机视觉的三个 R:识别、重建与重组”,《模式识别快报》(Pattern Recognit. Lett.),第 72 卷,第 4 - 14 页,2016 年 3 月。
[33] D. 金(D. Kim)、J. 朴(J. Park)和 J. 白(J. Paik),“用于实际几何校正和图像增强的扩展鱼眼镜头模型”,《光学快报》(Opt. Lett.),第 39 卷,第 21 期,第 6261 - 6264 页,2014 年。
[34] C. 休斯(C. Hughes)、P. 丹尼(P. Denny)、M. 格拉文(M. Glavin)和 E. 琼斯(E. Jones),“通过消失点提取进行等距鱼眼校准与校正”,《电气与电子工程师协会模式分析与机器智能汇刊》(IEEE Trans. Pattern Anal. Mach. Intell.),第 32 卷,第 12 期,第 2289 - 2296 页,2010 年 12 月。
[35] D. C. 布朗(D. C. Brown),“鱼眼镜头的替代模型”,《摄影测量工程》(Photogramm. Eng.),第 32 卷,第 2 期,第 444 - 462 页,1966 年。
[36] A. E. 康拉迪(A. E. Conrady),“偏心透镜系统”,《英国皇家天文学会月报》(Monthly Notices Roy. Astronomical Soc.),第 79 卷,第 5 期,第 384 - 390 页,1919 年 3 月。
[37] G. 布拉德斯基(G. Bradski),“OpenCV 库”,《博士・多布斯软件工具杂志》(Dr. Dobb’s J. Softw. Tools),第 25 卷,第 11 期,第 120 - 123 页,2000 年。
[38] MATLAB(2021a 版本)。美国马萨诸塞州纳蒂克市的美国迈斯沃克公司,2021 年。
[39] X. 应(X. Ying)、Z. 胡(Z. Hu)和 H. 查(H. Zha),“利用直线球面透视投影约束进行鱼眼镜头校准”,《亚洲计算机视觉会议论文集》(Proc. Asian Conf. Comput. Vis.),2006 年,第 61 - 70 页。
[40] 迈斯沃克公司(The Mathworks)。(2020 年)。《MATLAB R2020b:什么是相机校准?》访问时间:2020 年 12 月 16 日。[在线]。可获取网址:https://www.mathworks.com/help/vision/ug/camera-calibration.html
[41] 英伟达(NVidia)。(2020 年)。《DriveWrorks 3.0 SDK:相机模型》。访问时间:2022 年 4 月 22 日。[在线]。可获取网址:https://docs.nvidia.com/drive/archive/driveworks-3.0/group__cameramodel__group.html
[42] D. 斯卡拉穆扎(D. Scaramuzza)、A. 马丁内利(A. Martinelli)和 R. 西格瓦特(R. Siegwart),“一种用于精确全向相机校准及运动恢复结构的灵活技术”,《第 4 届电气与电子工程师协会国际计算机视觉系统会议论文集》(Proc. 4th IEEE Int. Conf. Comput. Vis. Syst.,缩写为 ICVS),2006 年 1 月,第 45 页。
[43] H. 维尔登瑙尔(H. Wildenauer)和 B. 米库希克(B. Micusík),“从单个消失点进行径向畸变估计的闭式解”,《英国机器视觉会议论文集》(Proc. Brit. Mach. Vis. Conf.),20

[51] 格拉纳(G. Klanar)、克里斯坦(M. Kristan)和卡尔巴(R. Karba),“移动机器人跟踪中的广角相机畸变与非均匀光照”,《机器人与自动化系统》(Robot. Auto. Syst.),第 46 卷,第 2 期,第 125 - 133 页,2004 年 2 月。
[52] 梅(X. Mei)、杨(S. Yang)、荣(J. Rong)、应(X. Ying)、黄(S. Huang)和查(H. Zha),“利用级联单参数除法模型进行径向镜头畸变校正”,《电气与电子工程师协会国际图像处理会议论文集》(Proc. IEEE Int. Conf. Image Process.,缩写为 ICIP),2015 年 9 月,第 3615 - 3619 页。
[53] A. L. 劳布舍尔(A. L. Laubscher),“透视地图投影的基础研究”,学位论文,美国俄亥俄州立大学大地测量科学系,美国俄亥俄州哥伦布市,1965 年。
[54] J. P. 斯奈德(J. P. Snyder),《地图投影:实用手册》(Map Projections: A Working Manual),第 1395 卷。美国华盛顿特区:美国地质调查局专业论文,1987 年。
[55] C. 休斯(C. Hughes)、P. 丹尼(P. Denny)、E. 琼斯(E. Jones)和 M. 格拉文(M. Glavin),“鱼眼镜头模型的精度”,《应用光学》(Appl. Opt.),第 49 卷,第 17 期,第 3338 - 3347 页,2010 年 6 月。
[56] C. 卡莱法托(C. Calefato)等人,“预防预警系统的人机界面:DESERVE 方法”,《迈向未来先进驾驶辅助系统通用软件 / 硬件方法:DESERVE 方法》(Towards a Common Software/Hardware Methodology for Future Advanced Driver Assistance Systems: The DESERVE Approach),G. 帕亚 - 瓦亚(G. Payá-Vayá)和 H. 布卢姆(H. Blume)编著,丹麦:里弗出版社,第 10 章,第 227 - 250 页,2017 年。
[57] S. 达布拉尔(S. Dabral)、S. 卡马斯(S. Kamath)、V. 阿皮亚(V. Appia)、M. 莫迪(M. Mody)、B. 张(B. Zhang)和 U. 巴图尔(U. Batur),“基于相机的汽车驾驶员辅助系统(ADAS)发展趋势”,《电气与电子工程师协会第 57 届国际中西部电路与系统研讨会论文集》(Proc. IEEE 57th Int. Midwest Symp. Circuits Syst.,缩写为 MWSCAS),2014 年 8 月,第 1110 - 1115 页。
[58] M. 吴(M. Woo)、J. 尼德(J. Neider)、T. 戴维斯(T. Davis)和 D. 施赖纳(D. Shreiner),《OpenGL 编程指南:学习 OpenGL 的官方指南》(OpenGL Programming Guide: The Official Guide to Learning OpenGL),第 1.2 版。美国马萨诸塞州雷丁市:艾迪生 - 韦斯利朗文出版公司,1999 年。
[59] L. 亚希奥伊(L. Yahiaoui)等人,“目标检测算法的图像信号处理器ISP)参数优化”,《电子成像》(Electron. Imag.),第 2019 卷,第 15 期,第 1 - 44 页,2019 年 1 月。
[60] L. 亚希奥伊(L. Yahiaoui)、J. 霍根(J. Horgan)、B. 迪根(B. Deegan)、S. 约加玛尼(S. Yogamani)、C. 休斯(C. Hughes)和 P. 丹尼(P. Denny),“自动驾驶视觉感知中图像信号处理器(ISP)参数调整的综述与实证分析”,《成像杂志》(J. Imag.),第 5 卷,第 10 期,第 78 页,2019 年 9 月。
[61] V. 兹洛科利察(V. Zlokolica)、B. 迪根(B. Deegan)、P. 丹尼(P. Denny)、M. 格里芬(M. Griffin)和 B. 德弗(B. Dever),“汽车系统的自由视角多相机可视化与协调”,《电子成像》(Electron. Imag.),第 29 卷,第 19 期,第 12 - 17 页,2017 年 1 月。
[62] Z. 张(Z. Zhang),“通过从未知方向观察平面进行灵活的相机校准”,《电气与电子工程师协会国际计算机视觉会议论文集》(Proc. IEEE Int. Conf. Comput. Vis.,缩写为 ICCV),第 1 卷,1999 年 9 月,第 666 - 673 页。
[63] J. 海基拉(J. Heikkila)和 O. 西尔文(O. Silven),“带有隐式图像校正的四步相机校准程序”,《电气与电子工程师协会计算机协会计算机视觉与模式识别会议论文集》(Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit.),1997 年 7 月,第 1106 - 1112 页。
[64] A. 杜达(A. Duda)和 U. 弗雷斯(U. Frese),“校准用棋盘格角点的精确检测与定位”,《英国机器视觉会议论文集》(Proc. BMVC),2018 年,第 126 页。
[65] D. 斯卡拉穆扎(D. Scaramuzza)、A. 马丁内利(A. Martinelli)和 R. 西格瓦特(R. Siegwart),“一个便于校准全向相机的工具箱”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2006 年 10 月,第 5695 - 5701 页。
[66] M. 鲁菲利(M. Rufli)、D. 斯卡拉穆扎(D. Scaramuzza)和 R. 西格瓦特(R. Siegwart),“模糊及畸变图像上棋盘格的自动检测”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2008 年 9 月,第 3121 - 3126 页。
[67] J. 雷德(J. Rehder)、J. 尼科利奇(J. Nikolic)、T. 施耐德(T. Schneider)、T. 欣茨曼(T. Hinzmann)和 R. 西格瓦特(R. Siegwart),“扩展卡尔布(kalibr):校准多个惯性测量单元(IMUs)及各轴的外部参数”,《电气与电子工程师协会国际机器人与自动化会议论文集》(Proc. IEEE Int. Conf. Robot. Autom.,缩写为 ICRA),2016 年 5 月,第 4304 - 4311 页。
[68] P. 富尔加勒(P. Furgale)、J. 雷德(J. Rehder)和 R. 西格瓦特(R. Siegwart),“多传感器系统的统一时空校准”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2013 年 11 月,第 1280 - 1286 页。
[69] P. 富尔加勒(P. Furgale)、T. D. 巴富特(T. D. Barfoot)和 G. 西布利(G. Sibley),“使用时间基函数的连续时间批量估计”,《电气与电子工程师协会国际机器人与自动化会议论文集》(Proc. IEEE Int. Conf. Robot. Autom.),2012 年 5 月,第 2088 - 2095 页。
[70] J. 梅(J. Maye)、P. 富尔加勒(P. Furgale)和 R. 西格瓦特(R. Siegwart),“机器人系统的自监督校准”,《电气与电子工程师协会智能车辆研讨会论文集》(Proc. IEEE Intell. Vehicles Symp.,缩写为 IV),2013 年 6 月,第 473 - 480 页。
[71] L. 亨(L. Heng)、B. 李(B. Li)和 M. 波利费斯(M. Pollefeys),“CamOdoCal:含多个通用相机和里程计的装置的自动内参和外参校准”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.),2013 年 11 月,第 1793 - 1800 页。
[72] X. 邵(X. Shao)、X. 刘(X. Liu)、L. 张(L. Zhang)、S. 赵(S. Zhao)、Y. 沈(Y. Shen)和 Y. 杨(Y. Yang),“再探环视相机系统校准”,《电气与电子工程师协会国际多媒体博览会会议论文集》(Proc. IEEE Int. Conf. Multimedia Expo,缩写为 ICME),2019 年 7 月,第 1486 - 1491 页。
[73] X. 刘(X. Liu)等人,“环视系统的在线相机位姿优化”,《第 27 届美国计算机协会多媒体国际会议论文集》,美国纽约州纽约市,2019 年,第 383 - 391 页。
[74] K. 崔(K. Choi)、H. 郑(H. Jung)和 J. 苏尔(J. Suhr),“利用车道标线自动校准环视监控系统”,《传感器》(Sensors),第 18 卷,第 9 期,第 2956 页,2018 年 9 月。[在线]。可获取网址:https://www.mdpi.com/1424-8220/18/9/2956

[75] Z. 欧阳(Z. Ouyang)、L. 胡(L. Hu)、Y. 卢(Y. Lu)、Z. 王(Z. Wang)、X. 彭(X. Peng)和 L. 克奈普(L. Kneip),“车载环视相机系统外部方位的在线校准”,《电气与电子工程师协会国际机器人与自动化会议论文集》(Proc. IEEE Int. Conf. Robot. Autom.,缩写为 ICRA),2020 年 5 月,第 4990 - 4996 页。
[76] M. 弗里尔(M. Friel)、C. 休斯(C. Hughes)、P. 丹尼(P. Denny)、E. 琼斯(E. Jones)和 M. 格拉文(M. Glavin),“从汽车视频序列自动校准鱼眼相机”,《英国工程技术学会智能交通系统》(IET Intell. Transp. Syst.),第 4 卷,第 2 期,第 136 - 148 页,2010 年。
[77] N. 阿加瓦尔(N. Aggarwal)和 W. C. 卡尔(W. C. Karl),“通过正则化霍夫变换进行图像中的直线检测”,《电气与电子工程师协会图像处理汇刊》(IEEE Trans. Image Process.),第 15 卷,第 3 期,第 582 - 591 页,2006 年 3 月。
[78] W. 福斯特纳(W. Förstner)和 B. P. 弗罗贝尔(B. P. Wrobel),《摄影测量计算机视觉:统计、几何、定向与重建》(Photogrammetric Computer Vision: Statistics, Geometry, Orientation and Reconstruction),第 1 版,瑞士尚姆:施普林格出版社,2016 年。
[79] L. 马里奥蒂(L. Mariotti)和 C. 艾辛(C. Eising),“鱼眼相机中几何运动分割约束的球面表述”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 5 期,第 4201 - 4211 页,2022 年 5 月。
[80] M. 洛伦索(M. Lourenço)、J. P. 巴雷托(J. P. Barreto)和 F. 瓦斯康塞洛斯(F. Vasconcelos),“SRD - SIFT:径向畸变图像中的关键点检测与匹配”,《电气与电子工程师协会机器人学汇刊》(IEEE Trans. Robot.),第 28 卷,第 3 期,第 752 - 760 页,2012 年 6 月。
[81] E. 普劳特(E. Plaut)、E. B. 亚科夫(E. B. Yaacov)和 B. 埃尔・什洛莫(B. El Shlomo),“从单张鱼眼图像进行 3D 目标检测(无需单张鱼眼训练图像)”,《电气与电子工程师协会 / 计算机视觉与模式识别会议研讨会论文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. Workshops,缩写为 CVPRW),2021 年 6 月,第 3659 - 3667 页。
[82] A. 达斯(A. Das)、S. 坎丹(S. Kandan)、S. 约加玛尼(S. Yogamani)和 P. 基泽克(P. Kížek),“自动驾驶实时语义分割解码器的设计”,《第 14 届国际计算机视觉、成像、计算、图形理论与应用联合会议论文集》,2019 年,第 1 - 8 页。
[83] L. 邓(L. Deng)、M. 杨(M. Yang)、Y. 钱(Y. Qian)、C. 王(C. Wang)和 B. 王(B. Wang),“基于卷积神经网络(CNN)的鱼眼相机城市交通场景语义分割”,《电气与电子工程师协会智能车辆研讨会论文集》(Proc. IEEE Intell. Vehicles Symp.,缩写为 IV),2017 年 6 月,第 231 - 236 页。
[84] 阿・塞斯(Á. Sáez)等人,“基于 ERFNet 的鱼眼城市驾驶图像实时语义分割”,《传感器》(Sensors),第 19 卷,第 1 期,第 503 页,2019 年。
[85] E. 罗梅拉(E. Romera)等人,“ERFNet:用于实时语义分割的高效残差分解卷积网络”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 19 卷,第 1 期,第 263 - 272 页,2017 年 10 月。
[86] M. 科茨(M. Cordts)等人,“用于城市语义场景理解的城市景观(Cityscapes)数据集”,《计算机视觉与模式识别会议论文集》(Proc. Comput. Vis. Pattern Recognit. Conf.),2016 年,第 3213 - 3223 页。
[87] L. 邓(L. Deng)、M. 杨(M. Yang)、H. 李(H. Li)、T. 李(T. Li)、B. 胡(B. Hu)和 C. 王(C. Wang),“基于受限可变形卷积的环视相机道路场景语义分割”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 21 卷,第 10 期,第 4350 - 4362 页,2020 年 10 月。
[88] Y. 叶(Y. Ye)、K. 杨(K. Yang)、K. 向(K. Xiang)、J. 王(J. Wang)和 K. 王(K. Wang),“鱼眼城市驾驶图像的通用语义分割”,《电气与电子工程师协会国际系统、人与控制论会议论文集》(Proc. IEEE Int. Conf. Syst., Man, Cybern.,缩写为 SMC),2020 年 10 月,第 648 - 655 页。
[89] G. 罗斯(G. Ros)、L. 塞拉特

[98] H. 拉希德(H. Rashed)等人,“鱼眼 YOLO:用于自动驾驶的鱼眼相机目标检测”,《机器学习自动驾驶神经信息处理系统研讨会论文集》(Proc. Mach. Learn. Auto. Driving NeurIPSW),2020 年,第 1 - 5 页。
[99] M. 乌亚(M. Uiá)、P. 基泽克(P. Kížek)、G. 西斯图(G. Sistu)和 S. 约加玛尼(S. Yogamani),“污渍检测网(SoilingNet):汽车环视相机上的污渍检测”,《电气与电子工程师协会智能交通系统会议论文集》(Proc. IEEE Intell. Transp. Syst. Conf.,缩写为 ITSC),2019 年 10 月,第 67 - 72 页。
[100] M. 乌亚(M. Uiá)等人,“让我们直面污渍:基于生成对抗网络(GAN)的数据增强用于自动驾驶中相机镜头污渍检测”,《电气与电子工程师协会冬季计算机视觉应用会议论文集》(Proc. IEEE Winter Conf. Appl. Comput. Vis.,缩写为 WACV),2021 年 1 月,第 766 - 775 页。
[101] A. 达斯(A. Das)等人,“分块污渍检测网(TiledSoilingNet):使用覆盖度量在汽车环视相机上进行分块级污渍检测”,《电气与电子工程师协会第 23 届智能交通系统国际会议论文集》(Proc. IEEE 23rd Int. Conf. Intell. Transp. Syst.,缩写为 ITSC),2020 年 9 月,第 1 - 6 页。
[102] M. 乌亚(M. Uiá)、G. 西斯图(G. Sistu)、L. 亚希奥伊(L. Yahiaoui)和 S. 约加玛尼(S. Yogamani),“基于集成的半监督学习以改善自动驾驶中含噪污渍标注”,《电气与电子工程师协会国际智能交通系统会议论文集》(Proc. IEEE Int. Intell. Transp. Syst. Conf.,缩写为 ITSC),2021 年 9 月,第 2925 - 2930 页。
[103] C. 萨卡里迪斯(C. Sakaridis)、D. 戴(D. Dai)和 L. 范古尔(L. Van Gool),“利用合成数据进行语义雾景理解”,《国际计算机视觉杂志》(Int. J. Comput. Vis.),第 126 卷,第 9 期,第 973 - 992 页,2018 年 9 月。
[104] H. 波拉夫(H. Porav)、T. 布鲁尔斯(T. Bruls)和 P. 纽曼(P. Newman),“此刻我能看清了:通过去雨进行图像恢复”,《国际机器人与自动化会议论文集》(Proc. Int. Conf. Robot. Autom.,缩写为 ICRA),2019 年 5 月,第 7087 - 7093 页。
[105] M. 乌亚(M. Uiá)等人,“去污渍数据集:恢复汽车鱼眼相机上的污渍区域”,《电气与电子工程师协会 / 计算机视觉与模式识别国际会议研讨会论文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop,缩写为 ICCVW),2019 年 10 月,第 4273 - 4279 页。
[106] L. 亚希奥伊(L. Yahiaoui)、M. 乌亚(M. Uiá)、A. 达斯(A. Das)和 S. 约加玛尼(S. Yogamani),“让阳光照进来:汽车环视相机上的太阳眩光检测”,《电子成像》(Electron. Imag.),第 2020 卷,第 1 期,第 1 - 80 页,2020 年。
[107] A. 达哈尔(A. Dahal)、V. R. 库马尔(V. R. Kumar)、S. 约加玛尼(S. Yogamani)和 C. 艾辛(C. Eising),“一种使用环视鱼眼相机进行无线充电对准的在线学习系统”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 11 期,第 20553 - 20562 页,2022 年 11 月。
[108] A. 达哈尔(A. Dahal)等人,“深度拖车辅助(DeepTrailerAssist):基于深度学习的汽车后视相机拖车检测、跟踪及铰接角估计”,《电气与电子工程师协会 / 计算机视觉与模式识别国际会议研讨会论文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshop,缩写为 ICCVW),2019 年 10 月,第 2339 - 2346 页。
[109] A. 盖格(A. Geiger)、P. 伦茨(P. Lenz)、C. 斯蒂勒(C. Stiller)和 R. 乌尔塔松(R. Urtasun),“视觉与机器人技术相遇:KITTI 数据集”,《国际机器人学研究杂志》(Int. J. Robot. Res.),第 32 卷,第 11 期,第 1231 - 1237 页,2013 年。
[110] T. 周(T. Zhou)、M. 布朗(M. Brown)、N. 斯内夫利(N. Snavely)和 D. G. 洛(D. G. Lowe),“从视频中无监督学习深度和自身运动”,《电气与电子工程师协会计算机视觉与模式识别会议论文集》(Proc. IEEE Conf. Comput. Vis. Pattern Recognit.,缩写为 CVPR),2017 年 7 月,第 1851 - 1858 页。
[111] C. 戈达尔(C. Godard)、O. M. 奥达(O. M. Aodha)、M. 菲尔曼(M. Firman)和 G. 布罗斯托(G. Brostow),“深入探究自监督单目深度估计”,《电气与电子工程师协会 / 计算机视觉与模式识别国际会议论文集》(Proc. IEEE/CVF Int. Conf. Comput. Vis.,缩写为 ICCV),2019 年 10 月,第 3828 - 3838 页。
[112] R. 哈特利(R. Hartley)和 A. 齐斯曼(A. Zisserman),《计算机视觉中的多视图几何》(Multiple View Geometry in Computer Vision),第 2 卷。英国剑桥:剑桥大学,2003 年。
[113] V. R. 库马尔(V. R. Kumar)等人,“使用单目鱼眼相机进行近场深度估计:一种使用稀疏激光雷达数据的半监督学习方法”,《计算机视觉与模式识别会议研讨会论文集》(Proc. Comput. Vis. Pattern Recognit. Conf. Workshops),第 7 卷,2018 年,第 2 页。
[114] V. R. 库马尔(V. R. Kumar)等人,“鱼眼距离网(FisheyeDistanceNet):用于自动驾驶的单目鱼眼相机自监督尺度感知距离估计”,《电气与电子工程师协会国际机器人与自动化会议论文集》(Proc. IEEE Int. Conf. Robot. Autom.,缩写为 ICRA),2020 年 5 月,第 574 - 581 页。
[115] V. R. 库马尔(V. R. Kumar)、M. 克林格纳(M. Klingner)、S. 约加玛尼(S. Yogamani)、S. 米尔茨(S. Milz)、T. 芬希谢特(T. Fingscheidt)和 P. 马德尔(P. Mader),“合成距离网(SynDistNet):用于自动驾驶的自监督单目鱼眼相机距离估计与语义分割协同”,《电气与电子工程师协会冬季计算机视觉应用会议论文集》(Proc. IEEE Winter Conf. Appl. Comput. Vis.,缩写为 WACV),2021 年 1 月,第 61 - 71 页。
[116] J. T. 巴伦(J. T. Barron),“一种通用且自适应的鲁棒损失函数”,《电气与电子工程师协会 / 计算机视觉与模式识别会议论文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit.,缩写为 CVPR),2017 年 6 月,第 4331 - 4339 页。
[117] V. R. 库马尔(V. R. Kumar)等人,“自监督环视鱼眼相机近场距离估计网(SVDistNet)”,《电气与电子工程师协会智能交通系统汇刊》(IEEE Trans. Intell. Transp. Syst.),第 23 卷,第 8 期,第 10252 - 10261 页,2022 年 8 月。
[118] P. 刘(P. Liu)、L. 亨(L. Heng)、T. 萨特勒(T. Sattler)、A. 盖格(A. Geiger)和 M. 波利费斯(M. Pollefeys),“鱼眼立体相机的直接视觉里程计”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,缩写为 IROS),2017 年 9 月,第 1746 - 1752 页。
[119] Z. 崔(Z. Cui)、L. 亨(L. Heng)、Y. C. 杨(Y. C. Yeo)、A. 盖格(A. Geiger)、M. 波利费斯(M. Pollefeys)和 T. 萨特勒(T. Sattler),“使用鱼眼相机的自动驾驶车辆实时稠密地图构建”,《国际机器人与自动化会议论文集》(Proc. Int. Conf. Robot. Autom.,缩写为 ICRA),2019 年 5 月,第 6087 - 6093 页。[120] L. 亨(L. Heng)和 B. 崔(B. Choi),“鱼眼立体相机的半直接视觉里程计”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,缩写为 IROS),2016 年 10 月,第 4077 - 4084 页。

[121] M. 格珀特(M. Geppert)、P. 刘(P. Liu)、Z. 崔(Z. Cui)、M. 波利费斯(M. Pollefeys)和 T. 萨特勒(T. Sattler),“用于多相机视觉定位的高效二维 - 三维匹配”,《国际机器人与自动化会议论文集》(Proc. Int. Conf. Robot. Autom.,缩写为 ICRA),2019 年 5 月,第 5972 - 5978 页。
[122] D. 卡鲁索(D. Caruso)、J. 恩格尔(J. Engel)和 D. 克雷默斯(D. Cremers),“面向全向相机的大规模直接同时定位与地图构建(SLAM)”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,缩写为 IROS),2015 年 9 月,第 141 - 148 页。
[123] V. R. 库马尔(V. R. Kumar)等人,“全向检测(Omnidet):基于环视相机的自动驾驶多任务视觉感知网络”,《电气与电子工程师协会机器人学与自动化快报》(IEEE Robot. Autom. Lett.),第 6 卷,第 2 期,第 2830 - 2837 页,2021 年 2 月。
[124] M. 西亚姆(M. Siam)、H. 马赫古布(H. Mahgoub)、M. 扎赫兰(M. Zahran)、S. 约加玛尼(S. Yogamani)、M. 贾格斯安德(M. Jagersand)和 A. 埃尔 - 萨拉布(A. El-Sallab),“基于运动和外观的自动驾驶运动目标检测网络(MODNet)”,《第 21 届智能交通系统国际会议论文集》(Proc. 21st Int. Conf. Intell. Transp. Syst.,缩写为 ITSC),2018 年 11 月,第 2859 - 2864 页。
[125] E. 穆罕默德(E. Mohamed)等人,“用于自动驾驶的单目实例运动分割:KITTI 实例运动分割(InstanceMotSeg)数据集及多任务基准”,《电气与电子工程师协会智能车辆研讨会论文集》(Proc. IEEE Intell. Vehicles Symp.,缩写为 IV),2021 年 7 月,第 114 - 121 页。
[126] M. 亚希奥伊(M. Yahiaoui)等人,“鱼眼 MODNet:用于自动驾驶的环视相机运动目标检测”,《爱尔兰机器视觉与图像处理会议论文集》(Proc. Irish Mach. Vis. Image Process.),2019 年,第 1 - 4 页。
[127] C. 艾辛(C. Eising)、L. 佩雷拉(L. Pereira)、J. 霍根(J. Horgan)、A. 塞尔瓦拉朱(A. Selvaraju)、J. 麦克唐纳(J. McDonald)和 P. 莫兰(P. Moran),“2.5 维车辆里程计估计”,《英国工程技术学会智能交通系统》(IET Intell. Transp. Syst.),第 16 卷,第 3 期,第 292 - 308 页,2022 年 3 月。
[128] I. 白(I. Baek)、A. 戴维斯(A. Davies)、G. 严(G. Yan)和 R. R. 拉杰库马尔(R. R. Rajkumar),“使用多幅鱼眼图像进行运动和静止物体的实时检测、跟踪及分类”,《电气与电子工程师协会智能车辆研讨会论文集》(Proc. IEEE Intell. Vehicles Symp.,缩写为 IV),2018 年 6 月,第 447 - 452 页。
[129] M. O. 泰兹坎(M. O. Tezcan)、Z. 段(Z. Duan)、M. 科克巴斯(M. Cokbas)、P. 伊什瓦尔(P. Ishwar)和 J. 康拉德(J. Konrad),“WEPDTOF:用于野外头顶鱼眼相机行人检测与跟踪的数据集及基准算法”,《电气与电子工程师协会 / 计算机视觉与模式识别冬季会议论文集》(Proc. IEEE/CVF Winter Conf. Appl. Comput. Vis.,缩写为 WACV),2022 年 1 月,第 503 - 512 页。
[130] T. 布赫特(T. Buhet)等人,“PLOP:用于自动驾驶的概率多项式物体轨迹预测”,《机器人学习会议论文集》(Proc. Conf. Robot Learn.),2021 年,第 329 - 338 页。
[131] Z. 吴(Z. Wu)、M. 王(M. Wang)、L. 尹(L. Yin)、W. 孙(W. Sun)、J. 王(J. Wang)和 H. 吴(H. Wu),“环视相机系统的车辆重识别”,《计算机视觉与模式识别会议研讨会论文集(可扩展性自动驾驶)》(Proc. CVPR Workshop Scalability Auto. Driving),2020 年,第 1 - 8 页。
[132] Z. 赵(Z. Zhao)、Z. 赵(Z. Zhao)、S. 王(S. Wang)、P. 瓦塔(P. Watta)和 Y. 卢・墨菲(Y. Lu Murphey),“使用环视鱼眼相机系统进行行人重识别”,《国际神经网络联合会议论文集》(Proc. Int. Joint Conf. Neural Netw.,缩写为 IJCNN),2021 年,第 1 - 8 页,doi:10.1109/IJCNN52387.2021.9533301。
[133] J. 雷德曼(J. Redmon)和 A. 法哈迪(A. Farhadi),“YOLOv3:一种渐进式改进”,2018 年,arXiv:1804.02767。

[143] A. R. 塞卡特(A. R. Sekkat)、Y. 迪皮伊(Y. Dupuis)、P. 瓦瑟(P. Vasseur)和 P. 奥内纳(P. Honeine),“全景观(OmniScape)数据集”,《电气与电子工程师协会国际机器人与自动化会议论文集》(Proc. IEEE Int. Conf. Robot. Autom.,缩写为 ICRA),2020 年 5 月,第 1603 - 1608 页。
[144] C. R. 德尔 - 布兰科(C. R. Del - Blanco)、P. 卡瓦列拉(P. Carballeira)、F. 绍雷吉扎尔(F. Jaureguizar)和 N. 加西亚(N. García),“使用空间感知分类器网格的全向相机进行稳健的室内人员定位”,《信号处理、图像通信》(Signal Process., Image Commun.),第 93 卷,2021 年 4 月,文章编号:116135。
[145] N. 广濑(N. Hirose)、A. 萨德吉安(A. Sadeghian)、M. 巴斯克斯(M. Vazquez)、P. 戈贝尔(P. Goebel)和 S. 萨瓦雷塞(S. Savarese),“GONet:一种用于可通行性估计的半监督深度学习方法”,《电气与电子工程师协会 / 国际机器人与系统学会国际智能机器人系统会议论文集》(Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst.,缩写为 IROS),2018 年 10 月,第 3044 - 3051 页。
[146] W. 徐(W. Xu)等人,“Mo2Cap2:使用头戴式鱼眼相机的实时移动三维运动捕捉”,《电气与电子工程师协会可视化与计算机图形汇刊》(IEEE Trans. Vis. Comput. Graph.),第 25 卷,第 5 期,第 2093 - 2101 页,2019 年 5 月。
[147] A. 艾兴塞尔(A. Eichenseer)和 A. 考普(A. Kaup),“一个提供合成和真实世界鱼眼视频序列的数据集”,《电气与电子工程师协会国际声学、语音与信号处理会议论文集》(Proc. IEEE Int. Conf. Acoust., Speech Signal Process.,缩写为 ICASSP),2016 年 3 月,第 1541 - 1545 页。
[148] H. 罗丹(H. Rhodin)等人,“自我捕捉(EgoCap):使用两个鱼眼相机的以自身为中心的无标记运动捕捉”,《美国计算机协会图形学汇刊》(ACM Trans. Graph.),第 35 卷,第 6 期,第 1 - 11 页,2016 年 11 月。
[149] G. 西斯图(G. Sistu)等人,“神经全能(NeurAll):迈向自动驾驶的统一视觉感知模型”,《电气与电子工程师协会智能交通系统会议论文集》(Proc. IEEE Intell. Transp. Syst. Conf.,缩写为 ITSC),2019 年 10 月,第 796 - 803 页。
[150] S. 切努帕蒂(S. Chennupati)、G. 西斯图(G. Sistu)、S. 约加玛尼(S. Yogamani)和 S. 拉瓦什德(S. Rawashdeh),“辅助网络(AuxNet):用于自动驾驶的辅助任务增强语义分割”,《第 14 届国际计算机视觉、成像、计算、图形理论与应用联合会议论文集》,2019 年,第 645 - 652 页。
[151] G. 西斯图(G. Sistu)、I. 梁(I. Leang)和 S. 约加玛尼(S. Yogamani),“用于自动驾驶的实时联合目标检测与语义分割网络”,《神经信息处理系统机器学习手机及其他消费设备研讨会论文集》(Proc. NeurIPSW ML Phone Other Consum. Devices),2018 年,第 1 - 5 页。
[152] I. 梁(I. Leang)、G. 西斯图(G. Sistu)、F. 伯格(F. Burger)、A. 布尔苏克(A. Bursuc)和 S. 约加玛尼(S. Yogamani),“自动驾驶系统中多任务网络的动态任务加权方法”,《电气与电子工程师协会第 23 届智能交通系统国际会议论文集》(Proc. IEEE 23rd Int. Conf. Intell. Transp. Syst.,缩写为 ITSC),2020 年 9 月,第 1 - 8 页。
[153] P. 马杜(P. Maddu)等人,“鱼眼多网(FisheyeMultiNet):用于环视自动泊车系统的实时多任务学习架构”,《爱尔兰机器视觉与图像处理会议论文集》,2019 年,第 1 - 8 页。
[154] H. 拉希德(H. Rashed)、A. 埃尔 - 萨拉布(A. El Sallab)、S. 约加玛尼(S. Yogamani)和 M. 埃尔 - 赫尔瓦(M. ElHelw),“用于自主导航的运动和深度增强语义分割”,《电气与电子工程师协会 / 计算机视觉与模式识别会议研讨会论文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. Workshops,缩写为 CVPRW),2019 年 6 月,第 364 - 370 页。
[155] I. 索布(I. Sobh)、A. 哈米德(A. Hamed)、V. R. 库马尔(V. R. Kumar)和 S. 约加玛尼(S. Yogamani),“自动驾驶多任务视觉感知中的对抗攻击”,《成像科学与技术杂志》(J. Imag. Sci. Technol.),第 65 卷,第 6 期,第 60408 页,2021 年 11 月。
[156] M. 乌亚(M. Uiá)、D. 胡里奇(D. Hurych)、P. 基泽克(P. Kížek)和 S. 约加玛尼(S. Yogamani),“自动驾驶数据集设计与验证中的挑战”,《第 14 届国际计算机视觉、成像、计算、图形理论与应用联合会议论文集》,2019 年,第 1 - 7 页。
[157] A. 盖格(A. Geiger)、P. 伦茨(P. Lenz)和 R. 乌尔塔松(R. Urtasun),“我们准备好自动驾驶了吗?KITTI 视觉基准套件”,《电气与电子工程师协会计算机视觉与模式识别会议论文集》,2012 年 6 月,第 3354 - 3361 页。
[158] S. 拉马钱德兰(S. Ramachandran)、G. 西斯图(G. Sistu)、J. 麦克唐纳(J. McDonald)和 S. 约加玛尼(S. Yogamani),“用于自动驾驶的木景鱼眼语义分割 ——2021 年计算机视觉与模式识别会议全向视觉研讨会挑战”,2021 年,arXiv:2107.08246。
[159] M. 埃德(M. Eder)、M. 什韦茨(M. Shvets)、J. 林(J. Lim)和 J. -M. 弗拉姆(J. -M. Frahm),“用于减轻球面畸变的切向图像”,《电气与电子工程师协会 / 计算机视觉与模式识别会议论文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit.,缩写为 CVPR),2020 年 6 月,第 12426 - 12434 页。
[160] A. 穆阿德(A. Muad)、A. 侯赛因(A. Hussain)、S. 萨马德(S. Samad)、M. 穆斯塔法(M. Mustaffa)和 B. 马吉利斯(B. Majlis),“用于开发自动车道跟踪系统的逆透视映射算法实现”,《电气与电子工程师协会第 10 区会议论文集》(Proc. IEEE Region 10 Conf.,缩写为 TENCON),第 1 卷,2004 年 11 月,第 207 - 210 页。
[161] S. 莫哈帕特拉(S. Mohapatra)、S. 约加玛尼(S. Yogamani)、H. 戈齐格(H. Gotzig)、S. 米尔茨(S. Milz)和 P. 马德尔(P. Mader),“鸟瞰视图检测网络(BEVDetNet):基于鸟瞰视图激光雷达点云的自动驾驶实时三维目标检测”,《电气与电子工程师协会国际智能交通系统会议论文集》(Proc. IEEE Int. Intell. Transp. Syst. Conf.,缩写为 ITSC),2021 年 9 月,第 2809 - 2815 页。
[162] T. 罗迪克(T. Roddick)和 R. 奇波拉(R. Cipolla),“使用金字塔占用网络从图像预测语义地图表示”,《电气与电子工程师协会 / 计算机视觉与模式识别会议论文集》(Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit.,缩写为 CVPR),2020 年 6 月,第 11138 - 11147 页。
[163] J. 菲利翁(J. Philion)和 S. 菲德勒(S. Fidler),“提升、展开、投射:通过隐式反投影到三维对任意相机装置的图像进行编码”,《欧洲计算机视觉会议论文集》,瑞士尚姆:施普林格出版社,2020 年,第 194 - 210 页。

[164] R. 普莱斯(R. Pless),“将多个相机当作一个使用”,《电气与电子工程师协会计算机协会计算机视觉与模式识别会议论文集》,第 2 卷,2003 年 6 月,第 1 - 7 页。
[165] Y. 王(Y. Wang)等人,“DETR3D:通过三维到二维查询从多视图图像进行三维目标检测”,《机器人学习会议论文集》,2022 年 1 月,第 180 - 191 页。[166] M. 博亚尔斯基(M. Bojarski)等人,“英伟达 PilotNet 实验”,2020 年,arXiv:2010.08776。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录