共计 1793 个字符,预计需要花费 5 分钟才能阅读完成。
BEV 感知系列分享是整数智能推出的一个全新分享系列,在这个系列中,咱们将介绍 BEV 感知相干的算法和数据集等内容。BEV 感知系列次要分为以下几篇文章:
- BEV 感知,是下一代主动驾驶感知算法风向吗?
- BEV 感知的开源数据集分享
BEV 常见的开源算法系列
- BEV 空间的生成
- BEV 下的多模态交融
- BEV 下的时序交融
在本系列中,咱们将介绍截至目前为止公布的优良 BEV 算法。咱们将该系列分为 BEV 空间的生成、BEV 下的多模态交融算法、BEV 下的时序交融算法。
本篇中咱们将介绍 BEV 下的时序交融算法。
在 BEV 空间内,因为坐标系雷同,能够很容易地交融时序信息,造成 4D 空间。在 4D 空间内,感知网络能够更好地实现一些感知工作,如测速等,甚至能够间接输入静止预测(motion prediction)给到上游的决策和规控。
BEV 下的时序交融
01 BEVStitch
【论文地址】https://ieeexplore.ieee.org/a…
【简介】
作者钻研了应用单个车载摄像头作为输出,以语义 BEV 映射的在线预计模式的场景了解。对于该工作,作者钻研了三个要害方面:图像级了解、BEV 级了解和工夫信息的聚合。基于这三个支柱,作者提出了一个联合这三个方面的新架构。
【算法构造】
BEVStitch 次要由三个局部组成,包含:
- 图像级分支:在图像级分支中,骨干特色由动态图像解码器和指标图像解码器解决,这两个分支构造类似,次要是在最初一层不同。两者都对骨干特色进行解码,并利用来自骨干的跳过连贯,生成像素级的宰割
时序聚合模块:这是整个算法架构的外围,它间接在 BEV 上进行,交融了时空信息。该模块包含两个要害操作:
- 工夫扭曲
- 聚合从骨干网络、对象解码器和动态地图解码器取得的三个输出
BEV 解码器:给定工夫聚合的 BEV 特色图后,由 BEV 解码器生成最终的 BEV 预测,该解码器应用残差网络架构来解决工夫聚合的 BEV 特色图
【试验后果】BEVStitch 在动态类中的体现
02 PETRv2
【论文地址】https://arxiv.org/abs/2206.01256
【简介】
基于 PETR,PETRv2 摸索了工夫建模的有效性,它利用前一帧的工夫信息来进步 3D 指标检测的准确率。更具体地说,作者扩大了 PETR 中的 3D 地位嵌入(3D PE)用于工夫建模。3D PE 实现了对不同帧指标地位的工夫对齐。为了进步 3D PE 的数据适应性,作者进一步引入了一种特色导向地位编码器。
【算法构造】
上图为 PETRv2 的整体架构,其算法的次要流程为:
- 二维图像特色通过二维骨干(例如 ResNet-50)从多视角图像中提取,三维坐标是由 PETR 中形容的相机地壳空间生成
- 思考到自我车的静止,前一帧 t - 1 的三维坐标首先通过姿态变换被转换成以后帧 t 的坐标系
- 将相邻帧的二维特色和三维坐标别离串联起来,输出到特色疏导的地位编码器(FPE)
- FPE 被用来为变换器解码器生成键和值,此外,检测查问和宰割查问别离从可学习的三维锚点和固定的 BEV 点初始化,被输出到变换器解码器,并与多视图图像特色进行交互
最初更新的查问被别离输出到检测和宰割头,以进行最终预测
【试验后果】PETRv2 在 nuScenes 测试集上的运行后果与其它算法的比拟
03 BEVDet4D
【论文地址】https://arxiv.org/abs/2203.17054
【简介】
单帧数据所蕴含的信息无限,这限度了现有的基于视觉的多摄像机三维指标检测范式的性能。为了从根本上冲破该畛域的性能边界,作者提出了一种名为 BEVDet4D 的新范式,将可扩大的 BEVDet 范式从纯空间 3D 工作空间晋升到时空 4D 工作空间。作者将前一帧的特色与以后帧中相应的特色交融在一起,使 BEVDet4D 可能通过查问和比拟两个候选特色来拜访工夫线索。此外,作者简化了速度预测的工作,将其进化为两个相邻特色的地位偏移预测。这使得 BEVDet4D 将速度误差升高了 62.9%,让基于视觉的办法在这方面首次能够与基于激光雷达或雷达的办法媲美。
【算法构造】
BEVDet4D 的总体框架由四种模块组成:图像 - 视图编码器、视图转换器、BEV 编码器和特定工作头,这些模块的所有实现细节和 BEVDet 放弃不变,改良的方面在于:视图转换器采纳额定的 BEV 编码器对候选特色进行调整,使其可能将前一帧中保留的特色与以后帧中的特色合并。
【试验后果】
与 nuScenes 测试集上最先进的算法进行的比拟