关于人工智能:BEV常见的开源算法系列二-BEV下的多模态融合

BEV 感知系列分享是整数智能推出的一个全新分享系列，在这个系列中，咱们将介绍 BEV 感知相干的算法和数据集等内容。BEV 感知系列次要分为以下几篇文章：

BEV 感知，是下一代主动驾驶感知算法风向吗？
BEV 感知的开源数据集分享
BEV 常见的开源算法系列
- BEV 空间的生成
- BEV 下的多模态交融
- BEV 下的时序交融

在本系列中，咱们将介绍截至目前为止公布的优良 BEV 算法。

咱们将该系列分为 BEV 空间的生成、BEV 下的多模态交融算法、BEV 下的时序交融算法。本篇将重点介绍 BEV 下的多模态交融算法。多传感器信息交融技术的基本原理就像人的大脑综合解决信息的过程一样，将各种传感器进行多层次、多空间的信息互补和优化组合解决，最终产生对观测环境的一致性解释。在这个过程中要充沛地利用多源数据进行正当摆布与应用，而信息交融的最终目标则是基于各传感器取得的拆散观测信息，通过对信息多级别、多方面组合导出更多有用信息。这不仅是利用了多个传感器互相协同操作的劣势，而且也综合解决了其它信息源的数据来进步整个传感器零碎的智能化。BEV 空间的多模态交融充分利用了各类传感器收集的信息进一步提高了 BEV 空间下的算法感知精度。

【论文地址】https://arxiv.org/abs/2205.13790
【简介】
最近人们设计了激光雷达 - 相机交融的深度网络，以更好地利用这两种模式的信息。作者认为激光雷达 - 相机交融的现实框架应该是无论其余模式是否存在，繁多模式的每个模型都不应该失败，而同时领有两种模式将进一步提高感知精度。为此作者提出了 BEVFusion，该框架有两个独立的流，它们将来自相机和激光雷达传感器的原始输出编码为同一 BEV 空间中的特色。而后设计了一个简略的模块来交融这两个流之后的 BEV 级交融特色，这样最终的特色就能够传递到古代工作预测头架构中。
【算法构造】

BEVFusion 将相机流和激光雷达流独立，而后通过交融模块将两个独立的流交融。

相机流
- image-view Encoder：该模块的目标是将输出图像编码为富含语义信息的深度特色。由一个用于根本特征提取的二维骨干网络和一个用于尺度变动物体示意的颈部模块组成。作者抉择 Dual-Swin-Tiny 作为骨干网络，在骨干网络之后应用规范的特色金字塔网络（FPN），以利用来自多尺度分辨率的特色。为了更好地调整这些特色，作者提出了一个简略地特色自适应模块（ADP）来欠缺上采样地特色
- View Project Module：因为图像特色依然是二维图像坐标，作者设计了一个视图投影模块，将其转换为三维自驾车坐标。该模块将图像视图特色作为输出，通过分类形式密集地预测深度，而后依据相机的外在参数和预测的图像深度，推导出图像 - 视图特色，在预约的点云中渲染，失去一个伪体素
- BEV Encoder Module：作者采纳空间到通道操作将 V 从 4D 张量转化为 3D 张量, 以保留语义信息并降低成本，而不是利用池化操作或用步长为 2 的 3D 卷积来压缩 z 维度。而后应用四个 3 ×3 的卷积层，逐渐将信道维度缩小到，并提取高层次的语义信息。该编码器间接解决全分辨率的相机 BEV 特色以保留空间信息
激光雷达流作者采纳了 PointPillars, CenterPoint 和 TransFusion 作为 LiDAR 流（）
交融模块：为了无效地交融来自相机和激光雷达传感器的 BEV 特色，作者提出了下图中的动静交融模块。给定雷同空间维度下的两个特色，一个直观的想法是将它们串联起来，用可学习的动态权重来交融它们。交融模块能够被表述为：

动静交融模块

其中 [,] 示意沿通道维度的拼接操作。是通过 3 ×3 卷积层实现的动态信道和空间交融函数，将连贯到的特色的信道维数升高。输出特色，可示意为：，其中 W 为线性变换矩阵，为全局均匀池化 σ 为 sigmoid 函数。
【试验后果】
在没有任何测试工夫减少或模型集成的状况下，BEVFusion 超过了所有以前的激光雷达 - 摄像机交融办法，并实现了 69.2% mAP 的最先进性能，而 TransFusion 的 mAP 为 68.9%。

nuScenes 验证集和测试集的后果

【论文地址】https://arxiv.org/abs/2207.10316
【简介】作者提出了 AutoAlignV2，这是一个建设在 AutoAlign 之上的更快、更强的多模态 3D 检测框架。
点云和 RGB 图像是主动驾驶中罕用的两种感知源。前者能提供精确的对象定位，后者语义信息更密集、更丰盛。最近，AutoAlign 在联合这两种模式进行 3D 对象检测方面提出了一个可学习的范式。然而它的计算成本很高。为了解决这一问题，作者提出了跨域变形 CAFA 模块。该办法采纳稠密的可学习采样点进行跨模态关系建模，进步了对校准误差的容错能力，大大放慢了跨模态特色聚合的速度。为了克服多模态条件下简单的 GT-AUG，作者设计了一种简略无效的基于深度信息的图像小块凸组合的跨模态加强策略。此外，通过执行一种新的图像级辍学训练计划，该模型可能以动静的形式进行推断。
【算法构造】

AutoAlignV2 算法网络结构

AutoAlignV2 的目标是无效地聚合图像特色，以进一步加强 3D 指标检测器的性能。该算法的检测流程为：

将成对的图像输出到一个轻量级的骨干 ResNet 中
再输出 FPN 以取得特色映射
在体素化阶段，通过可学习的对齐映射聚合相干图像信息，丰盛非空体素的三维示意
最初，将加强的特色输出后续的 3D 检测管道，生成实例预测

【试验后果】

不同算法在 nuScenes 上的测试排行榜

【论文地址】https://openaccess.thecvf.com…
【简介】
作者提出了跨模态三维物体检测算法 PointAugmenting，一方面 PointAugmenting 通过事后训练的 2D 检测模型提取相应的点状 CNN 特色来装璜点云，而后在装璜过的点云上进行三维物体检测。与高度形象的语义宰割分数来装璜点云相比，来自检测网络的 CNN 特色适应物体的外观变动，实现了显著的改良。另一方面，PointAugmenting 得益于一种新鲜的跨模式数据加强算法，该算法在网络训练期间继续地将虚构物体粘贴到图像和点云中。
【算法构造】

作者采纳 CenterPoint 作为 lidar 地基线，并通过跨模态交融机制和无效地数据加强计划对其进行扩大，上图展现了 PointAugmenting 网络架构，其蕴含两个阶段：

点的特色获取：将激光雷达点投影到图像立体上，而后用提取的 CNN 特色点进行附加
3D 检测：作者对 CenterPoint 进行了扩大，为相机特色增加了一个额定的 3D 稠密卷积流，并在 BEV 地图中交融了不同状态的特色。

【试验后果】

nuScenes 测试集上的预测后果

关于人工智能:BEV常见的开源算法系列二-BEV下的多模态融合

BEV 下的多模态交融

01 BEVFusion

02 AutoAlignV2

03 PointAugmenting