关于人工智能:BEV常见的开源算法系列一-BEV空间的生成

BEV感知系列分享是整数智能推出的一个全新分享系列，在这个系列中，咱们将介绍BEV感知相干的算法和数据集等内容。BEV感知系列次要分为以下几篇文章：

BEV感知，是下一代主动驾驶感知算法风向吗？
BEV感知的开源数据集分享
BEV常见的开源算法系列
- BEV空间的生成
- BEV下的多模态交融
- BEV下的时序交融

在本系列中，咱们将介绍截至目前为止公布的优良BEV算法。咱们将该系列分为BEV空间的生成、BEV下的多模态交融算法、BEV下的时序交融算法。

本篇将从BEV空间的生成算法开始，介绍BEV算法的倒退历史，并且重点介绍基于Transformer的BEV空间生成算法。这些算法开创性地应用Transformer更高效，更准确地生成BEV空间。

BEV算法的倒退历史

在 BEV空间中，传统的 BEV变换算法通常是在图像空间中进行特征提取，并产生宰割后果，再利用逆透视变换（IPM）将其转化为 BEV空间。

IPM的性能是打消视觉上的影响，比方，在主动/辅助驾驶中，因为在前视的照相机拍摄的图像中，本来平行的物体会因为透视的起因而产生穿插。

IPM是把影像与 BEV空间连接起来的一种简便、间接的形式，要失去一幅影像的 IPM，就必须理解摄像机的内参（焦距、光心）和外参（俯仰角、偏航角和高空高度）。在这个过程中，摄像机必须放弃俯仰角，但这种束缚太严格，难以在理论利用中失去满足。同时，因为参数的变动，会引起系统对物体的感知能力的变动，从而升高视觉品质，造成平行车道之间的夹角。

为减小俯仰角对视觉的影响，在改良后的算法中，采纳了摄像机的实时位姿，并将俯仰校对增加到相邻的帧中，这样能够取得较好的逆变换成果，但因为实时位姿难以准确地取得，因此无奈取得最现实的后果。

这两年BEV相干算法的倒退让深度学习利用于BEV空间转换的形式逐步成为支流。与以往的算法相比，利用神经网络进行二维 BEV空间变换能够取得更好的视觉效果。

该办法次要流程是：首先利用主干网对各个摄像机进行特征提取，再利用 Transformer等将多摄像机数据从图像空间转化为 BEV空间。在 BEV空间中，因为利用同一坐标零碎，能够很不便地将 Lidar、 Radar等传感器数据与其余传感器数据进行交融，还能够进行时序交融造成4D空间，这也是当下BEV技术的大趋势。

基于Transformer的PV2BEV算法

01 BEVFormer

【论文地址】https://arxiv.org/abs/2203.17270

【简介】BEVFormer能够无效地聚合来自多视角摄像机的时空特色和历史BEV特色。由BEVFormer生成的BEV特色能够同时反对多种三维感知工作，如三维物体检测和地图宰割，这对主动驾驶零碎是很有价值的。

【算法构造】

BEVFormer网络结构

BEVFormer网络结构如上图所示，它有6个编码器层，除BEV查问，空间穿插留神和工夫自我留神三种定制设计外，每个编码层都遵循Transformer的惯例构造。

BEV Queries
作者事后设定了一组网络形态的可学习的参数作为BEVFormer的queries。其中H和W是BEV立体的空间尺寸。具体来说，查问在处，Q负责BEV立体中相应的网络单元区域。每个BEV立体中的网络单元对应于s米的实在大小。BEV特色的核心在默认状况下对应于ego car的地位。依照常见的做法，数据输出BEVFormer之前，向BEV queries Q增加了可学习的地位编码。
Spatial Cross-Attention
作者设计了一种空间穿插注意力机制，使BEV queries从多相机特色中通过注意力机制提取所需的空间特色。因为本办法应用多尺度的图像特色和高分辨率的BEV特色，间接应用最奢侈的global attention会带来无奈累赘的计算代价。因而作者应用了一种基于deformable attention的稠密注意力机制使每个BEV query和局部图像区域进行交互。具体而言，对于每一个位于（x, y）地位的BEV特色，咱们能够计算其对应事实世界的坐标x', y'。而后作者将BEV query进行lift操作，获取在z轴上的多个3D points。有了3D points，就可能通过相机内外参获取3D points在view立体上的投影点。受到相机参数的限度，每个BEV query个别只会在1-2个view上有无效的投影点。基于Deformable Attention，咱们以这些投影点作为参考点，在四周进行特色采样，BEV query应用加权的采样特色进行更新，从而实现了spatial空间的特色聚合。
Temporal Self-Attention
除了空间信息之外，时序信息对于视觉零碎理解周围环境来说也是至关重要的。例如，在没有工夫线索的状况下，推断静止物体的速度或者从动态图像中检测高度遮挡的物体是很有挑战性的。作者设计了Temporal Self-Attention通过联合BEV的历史特色示意以后的环境。作者将BEV特色视为相似可能传递序列信息的memory，每一时刻生成的BEV特色都从上一时刻的BEV特色获取了所需的时序信息，这样保障可能动静获取所需的时序特色，而非像重叠不同时刻BEV特色那样只能获取定长的时序信息。
【试验后果】
在3D指标检测工作上，BEVFormer在验证集上比以前最好的办法DETR3D高出9.2分（51.7% NDS vs. 42.5% NDS）。在测试集上，BEVFormer在没有附加条件的状况下获得了56.9%的NDS，比DETR3D（47.9%的NDS）高9.0个百分点。该办法甚至能够达到与一些基于LiDAR的基线相当的性能，如SSN（56.9% NDS）和PointPainting（58.1% NDS）。

在nuScenes验证集上3D检测后果

02 PersFormer

【论文地址】https://arxiv.org/abs/1912.04838

【简介】
作者提出一种端到端单目3D车道检测器，它具备基于变压器的空间特色转换模块。该模型以相机参数为参考，关注相干的前视部分区域生成BEV特色。PersFormer采纳对立的2D/3D锚点设计和辅助工作同时检测2D/3D车道，加强了特色一致性，共享了多任务学习的益处。

【算法构造】

PersFormer网络结构

PersFormer整体构造如上图所示，由骨干、透视变压器和车道检测头三局部组成。

骨干以调整后的图像为输出，生成多尺度的前视图特色，其中采纳风行的ResNet变体。
透视转换器以摄像机的前视图特色为输出，借助摄像机的内外参数生成BEV特色。作者不是简略地从侧面视图向BEV投影一对一的特色对应，而是引入Transformer来关注部分上下文并聚合四周的特色，从而在BEV中造成一个强壮的示意。
车道检测头负责预测2D/3D坐标以及车道类型。

【试验后果】

PersFormer超过之前的SOTA算法在整个验证集和每个场景集上取得了最高的F-Score

03 CoBEVT

【论文地址】https://arxiv.org/abs/2207.02202

【简介】作者提出了第一个通用的多智能体多摄像机感知框架CoBEVT，假如所有智能体获取的信息是精确的，传输的信息是同步的，利用多个智能体之间的共享信息来取得整体的BEV宰割图，协同生成BEV地图预测。为了在底层Transformer架构中无效地交融来自多视图和多代理数据的相机特色，作者设计了一个交融轴向留神（FAX）模块，它能够跨视图和代理捕捉稠密的部分和全局空间交互。

【算法构造】

CoBEVT的整体架构包含：

交融轴向留神（FAX）：它作为SinBEVT和FuseBEVT的外围组件，用于高效地取得场景中的部分和全局属性
SinBEVT：用于BEV特色计算
FuseBEVT：用于多智能体特色压缩和共享

【试验后果】

基于OPV2V摄像机的地图语义宰割

基于OPV2V激光雷达的3D指标检测

nuScene上的地图语义宰割