关于人工智能:BEV常见的开源算法系列二-BEV下的多模态融合

BEV感知系列分享是整数智能推出的一个全新分享系列，在这个系列中，咱们将介绍BEV感知相干的算法和数据集等内容。BEV感知系列次要分为以下几篇文章：

BEV感知，是下一代主动驾驶感知算法风向吗？
BEV感知的开源数据集分享
BEV常见的开源算法系列
- BEV空间的生成
- BEV下的多模态交融
- BEV下的时序交融

在本系列中，咱们将介绍截至目前为止公布的优良BEV算法。

咱们将该系列分为BEV空间的生成、BEV下的多模态交融算法、BEV下的时序交融算法。本篇将重点介绍BEV下的多模态交融算法。多传感器信息交融技术的基本原理就像人的大脑综合解决信息的过程一样，将各种传感器进行多层次、多空间的信息互补和优化组合解决，最终产生对观测环境的一致性解释。在这个过程中要充沛地利用多源数据进行正当摆布与应用，而信息交融的最终目标则是基于各传感器取得的拆散观测信息，通过对信息多级别、多方面组合导出更多有用信息。这不仅是利用了多个传感器互相协同操作的劣势，而且也综合解决了其它信息源的数据来进步整个传感器零碎的智能化。BEV空间的多模态交融充分利用了各类传感器收集的信息进一步提高了BEV空间下的算法感知精度。

BEV下的多模态交融

01 BEVFusion

【论文地址】https://arxiv.org/abs/2205.13790
【简介】
最近人们设计了激光雷达-相机交融的深度网络，以更好地利用这两种模式的信息。作者认为激光雷达-相机交融的现实框架应该是无论其余模式是否存在，繁多模式的每个模型都不应该失败，而同时领有两种模式将进一步提高感知精度。为此作者提出了BEVFusion，该框架有两个独立的流，它们将来自相机和激光雷达传感器的原始输出编码为同一BEV空间中的特色。而后设计了一个简略的模块来交融这两个流之后的BEV级交融特色，这样最终的特色就能够传递到古代工作预测头架构中。
【算法构造】

BEVFusion将相机流和激光雷达流独立，而后通过交融模块将两个独立的流交融。

相机流
- image-view Encoder：该模块的目标是将输出图像编码为富含语义信息的深度特色。由一个用于根本特征提取的二维骨干网络和一个用于尺度变动物体示意的颈部模块组成。作者抉择Dual-Swin-Tiny作为骨干网络，在骨干网络之后应用规范的特色金字塔网络（FPN），以利用来自多尺度分辨率的特色。为了更好地调整这些特色，作者提出了一个简略地特色自适应模块（ADP）来欠缺上采样地特色
- View Project Module：因为图像特色依然是二维图像坐标，作者设计了一个视图投影模块，将其转换为三维自驾车坐标。该模块将图像视图特色作为输出，通过分类形式密集地预测深度，而后依据相机的外在参数和预测的图像深度，推导出图像-视图特色，在预约的点云中渲染，失去一个伪体素
- BEV Encoder Module：作者采纳空间到通道操作将V从4D张量转化为3D张量,以保留语义信息并降低成本，而不是利用池化操作或用步长为2的3D卷积来压缩z维度。而后应用四个3×3的卷积层，逐渐将信道维度缩小到，并提取高层次的语义信息。该编码器间接解决全分辨率的相机BEV特色以保留空间信息
激光雷达流作者采纳了PointPillars, CenterPoint和TransFusion作为LiDAR流（）
交融模块：为了无效地交融来自相机和激光雷达传感器的BEV特色，作者提出了下图中的动静交融模块。给定雷同空间维度下的两个特色，一个直观的想法是将它们串联起来，用可学习的动态权重来交融它们。交融模块能够被表述为：

动静交融模块

其中[ , ]示意沿通道维度的拼接操作。是通过3×3卷积层实现的动态信道和空间交融函数，将连贯到的特色的信道维数升高。输出特色，可示意为：，其中W为线性变换矩阵，为全局均匀池化σ为sigmoid函数。
【试验后果】
在没有任何测试工夫减少或模型集成的状况下，BEVFusion超过了所有以前的激光雷达-摄像机交融办法，并实现了69.2% mAP的最先进性能，而TransFusion的mAP为68.9%。

nuScenes验证集和测试集的后果

02 AutoAlignV2

【论文地址】https://arxiv.org/abs/2207.10316
【简介】作者提出了AutoAlignV2，这是一个建设在AutoAlign之上的更快、更强的多模态3D检测框架。
点云和RGB图像是主动驾驶中罕用的两种感知源。前者能提供精确的对象定位，后者语义信息更密集、更丰盛。最近，AutoAlign在联合这两种模式进行3D对象检测方面提出了一个可学习的范式。然而它的计算成本很高。为了解决这一问题，作者提出了跨域变形CAFA模块。该办法采纳稠密的可学习采样点进行跨模态关系建模，进步了对校准误差的容错能力，大大放慢了跨模态特色聚合的速度。为了克服多模态条件下简单的GT-AUG，作者设计了一种简略无效的基于深度信息的图像小块凸组合的跨模态加强策略。此外，通过执行一种新的图像级辍学训练计划，该模型可能以动静的形式进行推断。
【算法构造】

AutoAlignV2算法网络结构

AutoAlignV2的目标是无效地聚合图像特色，以进一步加强3D指标检测器的性能。该算法的检测流程为：

将成对的图像输出到一个轻量级的骨干ResNet中
再输出FPN以取得特色映射
在体素化阶段，通过可学习的对齐映射聚合相干图像信息，丰盛非空体素的三维示意
最初，将加强的特色输出后续的3D检测管道，生成实例预测

【试验后果】

不同算法在nuScenes上的测试排行榜

03 PointAugmenting

【论文地址】https://openaccess.thecvf.com…
【简介】
作者提出了跨模态三维物体检测算法PointAugmenting，一方面PointAugmenting通过事后训练的2D检测模型提取相应的点状CNN特色来装璜点云，而后在装璜过的点云上进行三维物体检测。与高度形象的语义宰割分数来装璜点云相比，来自检测网络的CNN特色适应物体的外观变动，实现了显著的改良。另一方面，PointAugmenting得益于一种新鲜的跨模式数据加强算法，该算法在网络训练期间继续地将虚构物体粘贴到图像和点云中。
【算法构造】

作者采纳CenterPoint作为lidar地基线，并通过跨模态交融机制和无效地数据加强计划对其进行扩大，上图展现了PointAugmenting网络架构，其蕴含两个阶段：

点的特色获取：将激光雷达点投影到图像立体上，而后用提取的CNN特色点进行附加
3D检测：作者对CenterPoint进行了扩大，为相机特色增加了一个额定的3D稠密卷积流，并在BEV地图中交融了不同状态的特色。

【试验后果】

nuScenes测试集上的预测后果

关于人工智能:BEV常见的开源算法系列二-BEV下的多模态融合

BEV下的多模态交融

01 BEVFusion

02 AutoAlignV2

03 PointAugmenting

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:BEV常见的开源算法系列二-BEV下的多模态融合

BEV下的多模态交融

01 BEVFusion

02 AutoAlignV2

03 PointAugmenting

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复