关于人工智能:自动驾驶视觉感知算法

转载自：小白学视觉
编辑：一点人工一点智能
原文: 主动驾驶视觉感知算法

环境感知是主动驾驶的第一环，是车辆和环境交互的纽带。一个主动驾驶零碎整体体现的好坏，很大水平上都取决于感知零碎的好坏。目前，环境感知技术有两大支流技术路线：

① 以视觉为主导的多传感器交融计划，典型代表是特斯拉；

② 以激光雷达为主导，其余传感器为辅助的技术计划，典型代表如谷歌、百度等。

咱们将围绕着环境感知中要害的视觉感知算法进行介绍，其工作涵盖范畴及其所属技术畛域如下图所示。咱们分为两节别离梳理了 2D 和 3D 视觉感知算法的脉络和方向。

接下来咱们先从广泛应用于主动驾驶的几个工作登程介绍 2D 视觉感知算法，包含基于图像或视频的 2D 指标检测和跟踪，以及 2D 场景的语义宰割。后半部分会介绍 3D 场景感知的内容。

近些年，深度学习渗透到视觉感知的各个领域，获得不错的问题，因而，咱们梳理了一些经典的深度学习算法。

两阶段指的是实现检测的形式有先后两个过程，一是提取物体区域；二是对区域进行 CNN 分类辨认；因而，“两阶段”又称基于候选区域（Region proposal）的指标检测。代表性算法有 R -CNN 系列（R-CNN、Fast R-CNN、Faster R-CNN）等。

Faster R-CNN 是第一个端到端的检测网络。第一阶段利用一个区域候选网络（RPN）在特色图的根底上生成候选框，应用 ROIPooling 对齐候选特色的大小；第二阶段用全连贯层做细化分类和回归。这里提出了 Anchor 的思维，缩小运算难度，进步速度。特色图的每个地位会生成不同大小、长宽比的 Anchor，用来作为物体框回归的参考。Anchor 的引入使得回归工作只用解决绝对较小的变动，因而网络的学习会更加容易。下图是 Faster R-CNN 的网络结构图。

CascadeRCNN 第一阶段和 Faster R-CNN 齐全一样，第二阶段应用多个 RoiHead 层进行级联。后续的一些工作多是围绕着上述网络的一些改良或者前人工作的杂烩，罕有突破性晋升。

相较于两阶段算法，单阶段算法只需一次提取特色即可实现目标检测，其速度算法更快，个别精度略微低一些。这类算法的开山之作是 YOLO，随后 SSD、Retinanet 顺次对其进行了改良，提出 YOLO 的团队将这些有助于晋升性能的 trick 融入到 YOLO 算法中，后续又提出了 4 个改良版本 YOLOv2~YOLOv5。只管预测准确率不如双阶段指标检测算法，因为较快的运行速度，YOLO 成为了工业界的支流。下图是 YOLOv3 的网络结构图。

这类办法个别是将物体示意为一些关键点，CNN 被用来回归这些关键点的地位。关键点能够是物体框的中心点（CenterNet）、角点（CornerNet）或者代表点（RepPoints）。CenterNet 将指标检测问题转换成中心点预测问题，即用指标的中心点来示意该指标，并通过预测指标中心点的偏移量与宽高来获取指标的矩形框。Heatmap 示意分类信息，每一个类别将会产生一个独自的 Heatmap 图。对于每张 Heatmap 图而言，当某个坐标处蕴含指标的中心点时，则会在该指标处产生一个关键点，咱们利用高斯圆来示意整个关键点，下图展现了具体的细节。

RepPoints 提出将物体示意为一个代表性点集，并且通过可变形卷积来适应物体的形态变动。点集最初被转换为物体框，用于计算与手工标注的差别。

无论是单阶段还是两阶段指标检测，无论采纳 Anchor 与否，都没有很好地利用到注意力机制。针对这种状况，Relation Net 和 DETR 利用 Transformer 将注意力机制引入到指标检测畛域。Relation Net 利用 Transformer 对不同指标之间的关系建模，在特色之中融入了关系信息，实现了特色加强。DETR 则是基于 Transformer 提出了全新的指标检测架构，开启了指标检测的新时代，下图是 DETR 的算法流程，先采纳 CNN 提取图像特色，而后用 Transformer 对全局的空间关系进行建模，最初失去的输入通过二分图匹配算法与手工标注进行匹配。

下表中的准确度采纳 MSCOCO 数据库上的 mAP 作为指标，而速度则采纳 FPS 来掂量，比照了上述局部算法，因为网络的结构设计中存在很多不同的抉择（比方不同的输出大小，不同的 Backbone 网络等），各个算法的实现硬件平台也不同，因而准确率和速度并不齐全可比，这里只列出来一个粗略的后果供大家参考。

在主动驾驶利用中，输出的是视频数据，须要关注的指标有很多，比方车辆，行人，自行车等等。因而，这是一个典型的多物体跟踪工作（MOT）。对于 MOT 工作来说，目前最风行的框架是 Tracking-by-Detection，其流程如下：

① 由指标检测器在单帧图像上失去指标框输入；

② 提取每个检测指标的特色，通常包含视觉特色和静止特色；

③ 依据特色计算来自相邻帧的指标检测之间的类似度，以判断其来自同一个指标的概率；

④ 将相邻帧的指标检测进行匹配，给来自同一个指标的物体调配雷同的 ID。

深度学习在以上这四个步骤中都有利用，然而以前两个步骤为主。在步骤 1 中，深度学习的利用次要在于提供高质量的指标检测器，因而个别都抉择准确率较高的办法。SORT 是基于 Faster R-CNN 的指标检测办法，并利用卡尔曼滤波算法 + 匈牙利算法，极大进步了多指标跟踪的速度，同时达到了 SOTA 的准确率，也是在理论利用中应用较为宽泛的一个算法。在步骤 2 中，深度学习的利用次要在于利用 CNN 提取物体的视觉特色。DeepSORT 最大的特点是退出外观信息，借用了 ReID 模块来提取深度学习特色，缩小了 ID switch 的次数。

整体流程图如下：

此外，还有一种框架 Simultaneous Detection and Tracking。如代表性的 CenterTrack，它起源于之前介绍过的单阶段无 Anchor 的检测算法 CenterNet。与 CenterNet 相比，CenterTrack 减少了前一帧的 RGB 图像和物体核心 Heatmap 作为额定输出，减少了一个 Offset 分支用来进行前后帧的 Association。与多个阶段的 Tracking-by-Detection 相比，CenterTrack 将检测和匹配阶段用一个网络来实现，进步了 MOT 的速度。

在主动驾驶的车道线检测和可行驶区域检测工作中均用到了语义宰割。代表性的算法有 FCN、U-Net、DeepLab 系列等。DeepLab 应用扩张卷积和 ASPP（Atrous Spatial Pyramid Pooling）构造，对输出图像进行多尺度解决。最初采纳传统语义宰割办法中罕用的条件随机场（CRF）来优化宰割后果。下图是 DeepLab v3+ 的网络结构。

近些年的 STDC 算法采纳了相似 FCN 算法的构造，去掉了 U -Net 算法简单的 decoder 构造。但同时在网络下采样的过程中，利用 ARM 模块一直地去交融来自不同层特色图的信息，因而也防止了 FCN 算法只思考单个像素关系的毛病。能够说，STDC 算法很好的做到了速度与精度的均衡，其能够满足主动驾驶零碎实时性的要求。算法流程如下图所示。

下面咱们介绍了 2D 视觉感知算法，接下来咱们将介绍主动驾驶中必不可少的 3D 场景感知。因为深度信息、指标三维尺寸等在 2D 感知中是无奈取得的，而这些信息才是主动驾驶系统对周围环境作出正确判断的要害。想得到 3D 信息，最间接的办法就是采纳激光雷达（LiDAR）。然而，LiDAR 也有其毛病，比方老本较高，车规级产品量产艰难，受天气影响较大等等。因而，单纯基于摄像头的 3D 感知依然是一个十分有意义和价值的钻研方向，接下来咱们梳理了一些基于单目和双目的 3D 感知算法。

基于单摄像头图像来感知 3D 环境是一个不适定问题，然而能够通过几何假如（比方像素位于高空）、先验常识或者一些额定信息（比方深度预计）来辅助解决。本次将从实现主动驾驶的两个根本工作（3D 指标检测和深度预计）登程进行相干算法介绍。

示意转换（伪激光雷达）：视觉传感器对四周其余车辆等的检测通常会遇到遮挡、无奈度量间隔等问题，能够将透视图转换成鸟瞰图示意。这里介绍两种变换办法。一是逆透视图映射（IPM），它假设所有像素都在高空上，并且相机外参精确，此时能够采纳 Homography 变换将图像转换到 BEV，后续再采纳基于 YOLO 网络的办法检测指标的接地框。二是正交特色变换（OFT），利用 ResNet-18 提取透视图图像特色。而后，通过在投影的体素区域上累积基于图像的特色来生成基于体素的特色。而后将体素特色沿垂直方向折叠以产生正交的地立体特色。最初，用另一个相似于 ResNet 的自上而下的网络进行 3D 指标检测。这些办法只适应于车辆、行人这类贴地的指标。对于交通标志牌、红绿灯这类非贴地指标来说，能够通过深度预计来生成伪点云，进而进行 3D 检测。Pseudo-LiDAR 先利用深度预计的后果生成点云，再间接利用基于激光雷达的 3D 指标检测器生成 3D 指标框，其算法流程如下图所示，

关键点和 3D 模型：待检测指标如车辆、行人等其大小和形态绝对固定且已知，这些能够被用作预计指标 3D 信息的先验常识。DeepMANTA 是这个方向的开创性工作之一。首先，采纳一些指标检测算法比方 Faster RNN 来失去 2D 指标框，同时也检测指标的关键点。而后，将这些 2D 指标框和关键点与数据库中的多种 3D 车辆 CAD 模型别离进行匹配，抉择类似度最高的模型作为 3D 指标检测的输入。MonoGRNet 则提出将单目 3D 指标检测分成四个步骤：2D 指标检测、实例级深度预计、投影 3D 核心预计和部分角点回归，算法流程如下图所示。这类办法都假如指标有绝对固定的形态模型，对于车辆来说个别是满足的，对于行人来说就绝对艰难一些。

2D/3D 几何束缚：对 3D 核心和粗略实例深度的投影进行回归，并应用这二者估算粗略的 3D 地位。开创性的工作是 Deep3DBox，首先用 2D 指标框内的图像特色来预计指标大小和朝向。而后，通过一个 2D/3D 的几何束缚来求解中心点 3D 地位。这个束缚就是 3D 指标框在图像上的投影是被 2D 指标框严密突围的，即 2D 指标框的每条边上都至多能找到一个 3D 指标框的角点。通过之前曾经预测的大小和朝向，再配合上相机的标定参数，能够求解出中心点的 3D 地位。2D 和 3D 指标框之间的几何束缚如下图所示。Shift R-CNN 在 Deep3DBox 的根底上将之前失去的 2D 指标框、3D 指标框以及相机参数合并起来作为输出，采纳全连贯网络预测更为准确的 3D 地位。

间接生成 3DBox：这类办法从浓密的 3D 指标候选框登程，通过 2D 图像上的特色对所有的候选框进行评分，评分高的候选框即是最终的输入。有些相似指标检测中传统的滑动窗口办法。代表性的 Mono3D 算法首先基于指标先验地位（z 坐标位于高空）和大小来生成浓密的 3D 候选框。这些 3D 候选框投影到图像坐标后，通过综合 2D 图像上的特色对其进行评分，再通过 CNN 再进行二轮评分失去最终的 3D 指标框。M3D-RPN 是一种基于 Anchor 的办法，定义了 2D 和 3D 的 Anchor。2D Anchor 通过图像上浓密采样失去，3D Anchor 是通过训练集数据的先验常识（如指标理论大小的均值）确定的。M3D-RPN 还同时采纳了规范卷积和 Depth-Aware 卷积。前者具备空间不变性，后者将图像的行（Y 坐标）分成多个组，每个组对应不同的场景深度，采纳不同的卷积核来解决。上述这些浓密采样办法计算量十分大。SS3D 则采纳更为高效的单阶段检测，包含用于输入图像中每个相干指标的冗余示意以及相应的不确定性预计的 CNN，以及 3D 边框优化器。FCOS3D 也是一个单阶段的检测办法，回归指标额定减少了一个由 3D 指标框核心投影到 2D 图像失去的 2.5D 核心（X,Y,Depth）。

不论是上述的 3D 指标检测还是主动驾驶感知的另一项重要工作——语义宰割，从 2D 扩大到 3D，都或多或少得利用到了稠密或浓密的深度信息。单目深度预计的重要性显而易见，其输出是一张图像，输入是雷同大小的一张由每个像素对应的场景深度值组成的图像。输出也能够是视频序列，利用相机或者物体静止带来的额定信息来进步深度预计的准确度。

相比于监督学习，单目深度预计的无监督办法无需构建极具挑战性的真值数据集，实现难度更小。单目深度预计的无监督办法可分为基于单目视频序列和基于同步平面图像对两种。前者是建设在静止相机和静止场景的假如之上的。在后者的办法中，Garg 等人首次尝试应用同一时刻平面校对后的双目图像对进行图像重建，左右视图的位姿关系通过双目标定失去，取得了较为理想的成果。在此基础上，Godard 等人用左右一致性束缚进一步地晋升了精度，然而，在逐层下采样提取高级特色来增大感触野的同时，特色分辨率也在一直降落，粒度一直失落，影响了深度的细节解决成果和边界清晰度。为缓解这一问题，Godard 等人引入了全分辨率多尺度的损失，无效缩小了低纹理区域的黑洞和纹理复制带来的伪影。然而，这对精度的晋升成果仍是无限的。

最近，一些基于 Transformer 的模型层出不穷，旨于取得全阶段的全局感触野，这也十分实用于密集的深度预计工作。有监督的 DPT 中就提出采纳 Transformer 和多尺度构造来同时保障预测的部分精确性和全局一致性，下图是网络结构图。

双目视觉能够解决透视变换带来的歧义性，因而从实践上来说能够进步 3D 感知的准确度。然而双目零碎在硬件和软件上要求都比拟高。硬件上来说须要两个准确配准的摄像头，而且须要保障在车辆运行过程中始终保持配准的正确性。软件上来说算法须要同时解决来自两个摄像头的数据，计算复杂度较高，算法的实时性难以保障。与单目相比，双目的工作绝对较少。接下来也同样从 3D 指标检测和深度预计两方面进行简略介绍。

3DOP 是一个两阶段的检测办法，是 Fast R-CNN 办法在 3D 畛域的拓展。首先利用双目图像生成深度图，将深度图转化为点云后再将其量化为网格数据结构，再以此为输出来生成 3D 指标的候选框。与之前介绍的 Pseudo-LiDAR 相似，都是将浓密的深度图（来自单目、双目甚至低线数 LiDAR）转换为点云，而后再利用点云指标检测畛域的算法。DSGN 利用立体匹配构建立体扫描体，并将其转换成 3D 几何体，以便编码 3D 几何形态和语义信息，是一个端到端的框架，可提取用于立体匹配的像素级特色和用于指标辨认的高级特色，并且能同时预计场景深度和检测 3D 指标。Stereo R-CNN 扩大了 Faster R-CNN 用于平面输出，以同时检测和关联左右视图中的指标。在 RPN 之后减少额定的分支来预测稠密的关键点、视点和指标尺寸，并联合左右视图中的 2D 边界框来计算粗略的 3D 指标边界框。而后，通过应用左右感兴趣区域的基于区域的光度对齐来复原精确的 3D 边界框，下图是它的网络结构。

双目深度预计的原理很简略，就是依据左右视图上同一个 3D 点之间的像素间隔 d（假如两个相机放弃同一高度，因而只思考程度方向的间隔）即视差，相机的焦距 f，以及两个相机之间的间隔 B（基线长度），来预计 3D 点的深度，公式如下，预计出视差就能够计算出深度。那么，须要做的就是为每个像素点在另一张图像上找出与之匹配的点。

对于每一个可能的 d，都能够计算每个像素点处的匹配误差，因而就失去了一个三维的误差数据 Cost Volume。通过 Cost Volume，咱们能够很容易失去每个像素处的视差（对应最小匹配误差的 d），从而失去深度值。MC-CNN 用一个卷积神经网络来预测两个图像块的匹配水平，并用它来计算立体匹配老本。通过基于穿插的老本汇总和半全局匹配来细化老本，而后进行左右一致性查看以打消被遮挡区域中的谬误。PSMNet 提出了一个不须要任何后处理的立体匹配的端到端学习框架，引入金字塔池模块，将全局上下文信息纳入图像特色，并提供了一个重叠沙漏 3D CNN 进一步强化全局信息。下图是其网络结构。

1. 书籍举荐 -《强化学习与最优控制》

2. 两万字详解主动驾驶开发工具链的现状与趋势！

3. 主动驾驶布局管制罕用的管制办法有哪些？

4. 无人驾驶零碎技术架构梳理：从感知、布局到管制

5. 书籍举荐 -《机器人门路布局与合作：根底、算法与试验》

6. 多车平面事件相机数据集：用于 3D 感知的事件相机数据集

关于人工智能:自动驾驶视觉感知算法

01 指标检测

1.1 两阶段检测

1.2 单阶段检测

1.3 Anchor-free 检测（无 Anchor 检测）

1.4 Transformer 检测

02 指标跟踪

03 语义宰割

04 单目 3D 感知

4.1 3D 指标检测

4.2 深度预计

05 双目 3D 感知

5.1 3D 指标检测

5.2 深度预计