关于人工智能:BEV感知是下一代自动驾驶感知算法风向吗

在古代主动驾驶工作中，决策布局模块依赖于多个感知、预测工作模块以提供短缺的环境信息，其中感知工作不仅须要检测场景中的动静物体，还须要辨认路线边界、人行横道、车道线、路标等动态元素。而预测工作须要零碎可能推理其它动静物体的静止趋势，为决策提供信息根据，布局出路线从而防止碰撞。

目前业界基于纯视觉的感知、预测算法钻研通常仅针对上述流程中的单个子问题的 image-view 计划，如 3D 指标检测、语义地图辨认或物体静止预测，通过前交融或后交融的形式将不同网络的感知后果进行交融。这导致了在搭建整体零碎时只能以线性构造重叠多个子模块。只管上述形式可能实现问题合成、便于独立的学术研究，但这种串行架构具备几个重要的缺点：
（1）上游模块的模型误差会一直向上游传递，然而在子问题的独立钻研中通常以真值作为输出，这使得累积误差会显著影响上游工作的性能体现

（2）不同子模块中存在反复的特征提取、维度转换等运算过程，然而串行架构无奈实现这些冗余计算的共享，不利于晋升零碎的整体效率

（3）无奈充分利用时序信息，一方面，时序信息能够作为空间信息的补充，更好地检测以后时刻被遮挡的物体，为定位物体的地位提供更多参考信息。另一方面，时序信息可能帮忙判断物体的静止状态，在短少时序信息的条件下，基于纯视觉的办法简直无奈无效判断物体的静止速度

区别于 image-view 计划，BEV 计划通过多摄像头或雷达将视觉信息转换至鸟瞰视角进行相干感知工作，这样的计划可能为主动驾驶感知提供更大的视线并且可能并行地实现多项感知工作，那么 BEV 感知可能成为下一代主动驾驶感知算法风向吗？

BEV 空间下地图宰割工作，截图自 ”UniFormer”(Qin et al., 2022)

在 BEV 空间中，传统的 BEV 变换算法通常是在图像空间中进行特征提取，并产生宰割后果，再利用逆透视变换（IPM）将其转化为 BEV 空间。

两个输出图像 (a) 和(b)以及它们对应的 IPM 投影图像，别离是 (c) 和(d)，截图自 ”Multimodal inverse perspective mapping”(Oliveira et al., 2015)

IPM 的性能是打消视觉上的影响，比方，在主动 / 辅助驾驶中，因为在前视的照相机拍摄的图像中，本来平行的物体会因为透视的起因而产生穿插。

IPM 是把影像与 BEV 空间连接起来的一种简便、间接的形式，要失去一幅影像的 IPM，就必须理解摄像机的内参（焦距、光心）和外参（俯仰角、偏航角和高空高度）。在这个过程中，摄像机必须放弃俯仰角，但这种束缚太严格，难以在理论利用中失去满足。同时，因为参数的变动，会引起系统对物体的感知能力的变动，从而升高视觉品质，造成平行车道之间的夹角。

为减小俯仰角对视觉的影响，在改良后的算法中，采纳了摄像机的实时位姿，并将俯仰校对增加到相邻的帧中，这样能够取得较好的逆变换成果，但因为实时位姿难以准确地取得，因此无奈取得最现实的后果。

这两年 BEV 相干算法的倒退让深度学习利用于 BEV 空间转换的形式逐步成为支流。与以往的算法相比，利用神经网络进行二维 BEV 空间变换能够取得更好的视觉效果。

该办法次要流程是：首先利用主干网对各个摄像机进行特征提取，再利用 Transformer 等技术将多摄像机数据从图象空间转化为 BEV 空间。在 BEV 空间中，因为利用同一坐标零碎，能够很不便地将 Lidar、Radar 等传感器数据与其余传感器数据进行交融，还能够进行时序交融造成 4D 空间，这也是当下 BEV 技术的大趋势。

传统跨摄像头交融或者多模态交融时，因为数据空间的差别，须要用很多后处理规定去关联不同传感器的感知后果，操作非常复杂。而在 BEV 空间内进行多摄像头或多模态交融后，再做指标检测、实例宰割等工作，能够使算法的实现更加简略，也能更直观地显示出 BEV 空间中的物体大小和方向。

在 BEV 空间中，能够很容易地实现时序信息的交融，从而构建一个 4D 空间。在 4D 空间内，感知算法可能更好地实现诸如速度测量等感知工作，并能将静止预测的后果传递到上游的决策和管制模块。

因为视觉的透视效应，事实世界的物体在 2D 图像中很容易受到其余物体的遮挡，因而，传统的基于 2D 的感知形式只能感知可见的指标，对于被遮挡的局部算法将无能为力。而在 BEV 空间内，算法能够基于先验常识，对被遮挡的区域进行预测，“脑补”出被遮挡的区域是否有物体。尽管“脑补”进去的物体诚然有“设想”的成分，但对后续的管制模块来说，还是有不少好处。

在传统感知工作中，辨认、跟踪和预测更像是个“串行零碎”，零碎上游的误差会传递到上游从而造成误差累积，但在 BEV 空间内，感知和预测都是在一个对立的空间中进行的，因而，能够通过神经网络间接做端到端优化，“并行”出后果，这样既能够防止误差累积，又能够极大地升高算法逻辑的影响，让感知网络可能以数据驱动的形式来自学习，进行更好的性能迭代。

回到本文结尾的问题，BEV 感知可能成为下一代主动驾驶感知算法风向吗？艰深的讲，BEV 感知相当于给主动驾驶开启了“上帝视角”，可能让车辆无遮挡的“看清”路线上的实况信息，在 BEV 视角下对立实现感知和预测工作。

在传统的 image-view 计划中，3D 指标检测、障碍物实例宰割、车道线宰割、轨迹预测等各项感知工作相互拆散，使得该计划下的主动驾驶算法须要串联多个子模块，极大减少了算法的开发、保护老本。而 BEV 感知可能让这些感知工作在一个算法框架上实现，大大减少人力需要。

综合前文所述的 BEV 劣势，当下不少的钻研机构和各大车企都在推动 BEV 计划的落地，基于来自传感器输出层、根本工作和产品场景的不同组合，能够给出相应的 BEV 算法，例如，M2BEV 和 BEVFormer 属于纯摄像机路线的算法，从多个摄像机获取图像信息来执行多种工作，包含 3D 指标检测和 BEV 地图宰割等。BEVFusion 设计了一个 BEV 空间的多模态交融策略，同时应用摄像机和 LiDAR 作为输出实现 3D 检测和跟踪工作。特斯拉公布了其系统化的 pipeline，在矢量空间（BEV）中检测物体和车道线，用于二级公路导航和智能号召。

能够必定的是，BEV 感知算法可能更好地交融多传感器的特色，进步感知和预测的准确率，在肯定水平上能够晋升主动驾驶技术。

BEV 感知是否可能成为主动驾驶的“答案”还有待工夫验证。而在刚过去不久的特斯拉 AI Day2022 中，特斯拉提出的 Occupancy Network 在 BEV 的根底上加上了 Z 轴的信息，引入的 occupancy grid 能够用于示意任意形态的物体和任意模式的物体静止。Occupancy Network 是否又能将主动驾驶带到一个新的高度？咱们将在后续系列的推文中介绍并一起探讨对于特斯拉的主动驾驶解决方案。

关于人工智能:BEV感知是下一代自动驾驶感知算法风向吗

1 背景

2 BEV 的倒退历史

3 BEV 的劣势

3.1 跨摄像头交融和多模态交融更易实现

3.2 时序交融更易实现

3.3 可“脑补”出被遮挡的指标

3.4 端到端的优化更加容易

4 BEV 感知，是下一代主动驾驶感知风向吗？