关于人工智能:自动驾驶视觉感知算法

转载自：小白学视觉
编辑：一点人工一点智能
原文:主动驾驶视觉感知算法

环境感知是主动驾驶的第一环，是车辆和环境交互的纽带。一个主动驾驶零碎整体体现的好坏，很大水平上都取决于感知零碎的好坏。目前，环境感知技术有两大支流技术路线：

① 以视觉为主导的多传感器交融计划，典型代表是特斯拉；

② 以激光雷达为主导，其余传感器为辅助的技术计划，典型代表如谷歌、百度等。

咱们将围绕着环境感知中要害的视觉感知算法进行介绍，其工作涵盖范畴及其所属技术畛域如下图所示。咱们分为两节别离梳理了2D和3D视觉感知算法的脉络和方向。

接下来咱们先从广泛应用于主动驾驶的几个工作登程介绍2D视觉感知算法，包含基于图像或视频的2D指标检测和跟踪，以及2D场景的语义宰割。后半部分会介绍3D场景感知的内容。

近些年，深度学习渗透到视觉感知的各个领域，获得不错的问题，因而，咱们梳理了一些经典的深度学习算法。

01 指标检测

1.1 两阶段检测

两阶段指的是实现检测的形式有先后两个过程，一是提取物体区域；二是对区域进行CNN分类辨认；因而，“两阶段”又称基于候选区域（Region proposal）的指标检测。代表性算法有R-CNN系列（R-CNN、Fast R-CNN、Faster R-CNN）等。

Faster R-CNN是第一个端到端的检测网络。第一阶段利用一个区域候选网络（RPN）在特色图的根底上生成候选框，应用ROIPooling对齐候选特色的大小；第二阶段用全连贯层做细化分类和回归。这里提出了Anchor的思维，缩小运算难度，进步速度。特色图的每个地位会生成不同大小、长宽比的Anchor，用来作为物体框回归的参考。Anchor的引入使得回归工作只用解决绝对较小的变动，因而网络的学习会更加容易。下图是Faster R-CNN的网络结构图。

CascadeRCNN第一阶段和Faster R-CNN齐全一样，第二阶段应用多个RoiHead层进行级联。后续的一些工作多是围绕着上述网络的一些改良或者前人工作的杂烩，罕有突破性晋升。

1.2 单阶段检测

相较于两阶段算法，单阶段算法只需一次提取特色即可实现目标检测，其速度算法更快，个别精度略微低一些。这类算法的开山之作是YOLO，随后SSD、Retinanet顺次对其进行了改良，提出YOLO的团队将这些有助于晋升性能的trick融入到YOLO算法中，后续又提出了4个改良版本YOLOv2~YOLOv5。只管预测准确率不如双阶段指标检测算法，因为较快的运行速度，YOLO成为了工业界的支流。下图是YOLOv3的网络结构图。

1.3 Anchor-free检测（无Anchor检测）

这类办法个别是将物体示意为一些关键点，CNN被用来回归这些关键点的地位。关键点能够是物体框的中心点（CenterNet）、角点（CornerNet）或者代表点（RepPoints）。CenterNet将指标检测问题转换成中心点预测问题，即用指标的中心点来示意该指标，并通过预测指标中心点的偏移量与宽高来获取指标的矩形框。Heatmap示意分类信息，每一个类别将会产生一个独自的Heatmap图。对于每张Heatmap图而言，当某个坐标处蕴含指标的中心点时，则会在该指标处产生一个关键点，咱们利用高斯圆来示意整个关键点，下图展现了具体的细节。

RepPoints提出将物体示意为一个代表性点集，并且通过可变形卷积来适应物体的形态变动。点集最初被转换为物体框，用于计算与手工标注的差别。

1.4 Transformer检测

无论是单阶段还是两阶段指标检测，无论采纳Anchor与否，都没有很好地利用到注意力机制。针对这种状况，Relation Net和DETR利用Transformer将注意力机制引入到指标检测畛域。Relation Net利用Transformer对不同指标之间的关系建模，在特色之中融入了关系信息，实现了特色加强。DETR则是基于Transformer提出了全新的指标检测架构，开启了指标检测的新时代，下图是DETR的算法流程，先采纳CNN提取图像特色，而后用Transformer对全局的空间关系进行建模，最初失去的输入通过二分图匹配算法与手工标注进行匹配。

下表中的准确度采纳MSCOCO数据库上的mAP作为指标，而速度则采纳FPS来掂量，比照了上述局部算法，因为网络的结构设计中存在很多不同的抉择（比方不同的输出大小，不同的Backbone网络等），各个算法的实现硬件平台也不同，因而准确率和速度并不齐全可比，这里只列出来一个粗略的后果供大家参考。

02 指标跟踪

在主动驾驶利用中，输出的是视频数据，须要关注的指标有很多，比方车辆，行人，自行车等等。因而，这是一个典型的多物体跟踪工作（MOT）。对于MOT工作来说，目前最风行的框架是Tracking-by-Detection，其流程如下：

① 由指标检测器在单帧图像上失去指标框输入；

② 提取每个检测指标的特色，通常包含视觉特色和静止特色；

③ 依据特色计算来自相邻帧的指标检测之间的类似度，以判断其来自同一个指标的概率；

④ 将相邻帧的指标检测进行匹配，给来自同一个指标的物体调配雷同的ID。

深度学习在以上这四个步骤中都有利用，然而以前两个步骤为主。在步骤1中，深度学习的利用次要在于提供高质量的指标检测器，因而个别都抉择准确率较高的办法。SORT是基于Faster R-CNN的指标检测办法，并利用卡尔曼滤波算法+匈牙利算法，极大进步了多指标跟踪的速度，同时达到了SOTA的准确率，也是在理论利用中应用较为宽泛的一个算法。在步骤2中，深度学习的利用次要在于利用CNN提取物体的视觉特色。DeepSORT最大的特点是退出外观信息，借用了ReID模块来提取深度学习特色，缩小了ID switch的次数。

整体流程图如下：

此外，还有一种框架Simultaneous Detection and Tracking。如代表性的CenterTrack，它起源于之前介绍过的单阶段无Anchor的检测算法CenterNet。与CenterNet相比，CenterTrack减少了前一帧的RGB图像和物体核心Heatmap作为额定输出，减少了一个Offset分支用来进行前后帧的Association。与多个阶段的Tracking-by-Detection相比，CenterTrack将检测和匹配阶段用一个网络来实现，进步了MOT的速度。

03 语义宰割

在主动驾驶的车道线检测和可行驶区域检测工作中均用到了语义宰割。代表性的算法有FCN、U-Net、DeepLab系列等。DeepLab应用扩张卷积和ASPP（Atrous Spatial Pyramid Pooling）构造，对输出图像进行多尺度解决。最初采纳传统语义宰割办法中罕用的条件随机场（CRF）来优化宰割后果。下图是DeepLab v3+的网络结构。

近些年的STDC算法采纳了相似FCN算法的构造，去掉了U-Net算法简单的decoder构造。但同时在网络下采样的过程中，利用ARM模块一直地去交融来自不同层特色图的信息，因而也防止了FCN算法只思考单个像素关系的毛病。能够说，STDC算法很好的做到了速度与精度的均衡，其能够满足主动驾驶零碎实时性的要求。算法流程如下图所示。

下面咱们介绍了2D视觉感知算法，接下来咱们将介绍主动驾驶中必不可少的3D场景感知。因为深度信息、指标三维尺寸等在2D感知中是无奈取得的，而这些信息才是主动驾驶系统对周围环境作出正确判断的要害。想得到3D信息，最间接的办法就是采纳激光雷达（LiDAR）。然而，LiDAR也有其毛病，比方老本较高，车规级产品量产艰难，受天气影响较大等等。因而，单纯基于摄像头的3D感知依然是一个十分有意义和价值的钻研方向，接下来咱们梳理了一些基于单目和双目的3D感知算法。

04 单目3D感知

基于单摄像头图像来感知3D环境是一个不适定问题，然而能够通过几何假如（比方像素位于高空）、先验常识或者一些额定信息（比方深度预计）来辅助解决。本次将从实现主动驾驶的两个根本工作（3D指标检测和深度预计）登程进行相干算法介绍。

4.1 3D指标检测

示意转换（伪激光雷达）：视觉传感器对四周其余车辆等的检测通常会遇到遮挡、无奈度量间隔等问题，能够将透视图转换成鸟瞰图示意。这里介绍两种变换办法。一是逆透视图映射（IPM），它假设所有像素都在高空上，并且相机外参精确，此时能够采纳Homography变换将图像转换到BEV，后续再采纳基于YOLO网络的办法检测指标的接地框。二是正交特色变换（OFT），利用ResNet-18提取透视图图像特色。而后，通过在投影的体素区域上累积基于图像的特色来生成基于体素的特色。而后将体素特色沿垂直方向折叠以产生正交的地立体特色。最初，用另一个相似于ResNet的自上而下的网络进行3D指标检测。这些办法只适应于车辆、行人这类贴地的指标。对于交通标志牌、红绿灯这类非贴地指标来说，能够通过深度预计来生成伪点云，进而进行3D检测。Pseudo-LiDAR先利用深度预计的后果生成点云，再间接利用基于激光雷达的3D指标检测器生成3D指标框，其算法流程如下图所示，

关键点和3D模型：待检测指标如车辆、行人等其大小和形态绝对固定且已知，这些能够被用作预计指标3D信息的先验常识。DeepMANTA是这个方向的开创性工作之一。首先，采纳一些指标检测算法比方Faster RNN来失去2D指标框，同时也检测指标的关键点。而后，将这些2D指标框和关键点与数据库中的多种3D车辆CAD模型别离进行匹配，抉择类似度最高的模型作为3D指标检测的输入。MonoGRNet则提出将单目3D指标检测分成四个步骤：2D指标检测、实例级深度预计、投影3D核心预计和部分角点回归，算法流程如下图所示。这类办法都假如指标有绝对固定的形态模型，对于车辆来说个别是满足的，对于行人来说就绝对艰难一些。

2D/3D几何束缚：对3D核心和粗略实例深度的投影进行回归，并应用这二者估算粗略的3D地位。开创性的工作是Deep3DBox，首先用2D指标框内的图像特色来预计指标大小和朝向。而后，通过一个2D/3D的几何束缚来求解中心点3D地位。这个束缚就是3D指标框在图像上的投影是被2D指标框严密突围的，即2D指标框的每条边上都至多能找到一个3D指标框的角点。通过之前曾经预测的大小和朝向，再配合上相机的标定参数，能够求解出中心点的3D地位。2D和3D指标框之间的几何束缚如下图所示。Shift R-CNN在Deep3DBox的根底上将之前失去的2D指标框、3D指标框以及相机参数合并起来作为输出，采纳全连贯网络预测更为准确的3D地位。

间接生成3DBox：这类办法从浓密的3D指标候选框登程，通过2D图像上的特色对所有的候选框进行评分，评分高的候选框即是最终的输入。有些相似指标检测中传统的滑动窗口办法。代表性的Mono3D算法首先基于指标先验地位（z坐标位于高空）和大小来生成浓密的3D候选框。这些3D候选框投影到图像坐标后，通过综合2D图像上的特色对其进行评分，再通过CNN再进行二轮评分失去最终的3D指标框。M3D-RPN是一种基于Anchor的办法，定义了2D和3D的Anchor。2D Anchor通过图像上浓密采样失去，3D Anchor是通过训练集数据的先验常识（如指标理论大小的均值）确定的。M3D-RPN还同时采纳了规范卷积和Depth-Aware卷积。前者具备空间不变性，后者将图像的行（Y坐标）分成多个组，每个组对应不同的场景深度，采纳不同的卷积核来解决。上述这些浓密采样办法计算量十分大。SS3D则采纳更为高效的单阶段检测，包含用于输入图像中每个相干指标的冗余示意以及相应的不确定性预计的CNN，以及3D边框优化器。FCOS3D也是一个单阶段的检测办法，回归指标额定减少了一个由3D指标框核心投影到2D图像失去的2.5D核心（X,Y,Depth）。

4.2 深度预计

不论是上述的3D指标检测还是主动驾驶感知的另一项重要工作——语义宰割，从2D扩大到3D，都或多或少得利用到了稠密或浓密的深度信息。单目深度预计的重要性显而易见，其输出是一张图像，输入是雷同大小的一张由每个像素对应的场景深度值组成的图像。输出也能够是视频序列，利用相机或者物体静止带来的额定信息来进步深度预计的准确度。

相比于监督学习，单目深度预计的无监督办法无需构建极具挑战性的真值数据集，实现难度更小。单目深度预计的无监督办法可分为基于单目视频序列和基于同步平面图像对两种。前者是建设在静止相机和静止场景的假如之上的。在后者的办法中，Garg等人首次尝试应用同一时刻平面校对后的双目图像对进行图像重建，左右视图的位姿关系通过双目标定失去，取得了较为理想的成果。在此基础上，Godard等人用左右一致性束缚进一步地晋升了精度，然而，在逐层下采样提取高级特色来增大感触野的同时，特色分辨率也在一直降落，粒度一直失落，影响了深度的细节解决成果和边界清晰度。为缓解这一问题，Godard等人引入了全分辨率多尺度的损失，无效缩小了低纹理区域的黑洞和纹理复制带来的伪影。然而，这对精度的晋升成果仍是无限的。

最近，一些基于Transformer的模型层出不穷，旨于取得全阶段的全局感触野，这也十分实用于密集的深度预计工作。有监督的DPT中就提出采纳Transformer和多尺度构造来同时保障预测的部分精确性和全局一致性，下图是网络结构图。

05 双目3D感知

双目视觉能够解决透视变换带来的歧义性，因而从实践上来说能够进步3D感知的准确度。然而双目零碎在硬件和软件上要求都比拟高。硬件上来说须要两个准确配准的摄像头，而且须要保障在车辆运行过程中始终保持配准的正确性。软件上来说算法须要同时解决来自两个摄像头的数据，计算复杂度较高，算法的实时性难以保障。与单目相比，双目的工作绝对较少。接下来也同样从3D指标检测和深度预计两方面进行简略介绍。

5.1 3D指标检测

3DOP是一个两阶段的检测办法，是Fast R-CNN办法在3D畛域的拓展。首先利用双目图像生成深度图，将深度图转化为点云后再将其量化为网格数据结构，再以此为输出来生成3D指标的候选框。与之前介绍的Pseudo-LiDAR相似，都是将浓密的深度图（来自单目、双目甚至低线数LiDAR）转换为点云，而后再利用点云指标检测畛域的算法。DSGN利用立体匹配构建立体扫描体，并将其转换成3D几何体，以便编码3D几何形态和语义信息，是一个端到端的框架，可提取用于立体匹配的像素级特色和用于指标辨认的高级特色，并且能同时预计场景深度和检测3D指标。Stereo R-CNN扩大了 Faster R-CNN 用于平面输出，以同时检测和关联左右视图中的指标。在RPN之后减少额定的分支来预测稠密的关键点、视点和指标尺寸，并联合左右视图中的2D边界框来计算粗略的3D指标边界框。而后，通过应用左右感兴趣区域的基于区域的光度对齐来复原精确的3D边界框，下图是它的网络结构。

5.2 深度预计

双目深度预计的原理很简略，就是依据左右视图上同一个3D点之间的像素间隔d（假如两个相机放弃同一高度，因而只思考程度方向的间隔）即视差，相机的焦距f，以及两个相机之间的间隔B（基线长度），来预计3D点的深度，公式如下，预计出视差就能够计算出深度。那么，须要做的就是为每个像素点在另一张图像上找出与之匹配的点。

对于每一个可能的d，都能够计算每个像素点处的匹配误差，因而就失去了一个三维的误差数据Cost Volume。通过Cost Volume，咱们能够很容易失去每个像素处的视差（对应最小匹配误差的d），从而失去深度值。MC-CNN用一个卷积神经网络来预测两个图像块的匹配水平，并用它来计算立体匹配老本。通过基于穿插的老本汇总和半全局匹配来细化老本，而后进行左右一致性查看以打消被遮挡区域中的谬误。PSMNet提出了一个不须要任何后处理的立体匹配的端到端学习框架，引入金字塔池模块，将全局上下文信息纳入图像特色，并提供了一个重叠沙漏3D CNN进一步强化全局信息。下图是其网络结构。

1. 书籍举荐-《强化学习与最优控制》

2. 两万字详解主动驾驶开发工具链的现状与趋势！

3. 主动驾驶布局管制罕用的管制办法有哪些？

4. 无人驾驶零碎技术架构梳理：从感知、布局到管制

5. 书籍举荐-《机器人门路布局与合作：根底、算法与试验》

6. 多车平面事件相机数据集：用于3D感知的事件相机数据集