关于算法:浅谈CVPR2022-Traffic-Line

3次阅读

共计 4283 个字符,预计需要花费 11 分钟才能阅读完成。

CVPR 2022 刚刚完结,而我最近一段时间始终在进行 Traffic Line 相干的工作,所以趁着热度跟大家聊一聊 CVPR 2022 中对于 Traffic Line 相干的论文。这次次要筛选我认为比拟有意思的一些 Paper 来跟大家分享一下。

by 元戎感知组 Kivi·Wong

01《Rethinking Efficient Lane Detection via Curve Modeling》

摘要

目前车道线解决计划蕴含以下三大类:

  • Keypoint-base Method:相似于物体检测的形式,将车道线看成由若干关键点组成的线,而后进行关键点检测。例如:Line-CNN[1]、LaneATT[2]
  • Segmentation-base Method:这种形式将车道线标注为图像宰割,通过图像宰割的形式进行车道线检测。例如:HDMapNet[3]
  • Curve-base Method: 首先预约义曲线模型,通过对曲线模型的学习来获取图像中的车道线示意。例如:PolyLaneNet[4]

目前支流的办法是 Keypoint-base Method 和 Segmentation-base Method,基于 Curve-base Method 的办法在性能上落后于其余的两类办法。在此基础上,作者认为次要的起因在于 基于多项式的曲线参数模式很难被学习。

面对上述的状况,作者提出了一个问题,Curve-base 相干办法是否有可能达到 SOTA 的程度?
作者察看到,贝塞尔曲线模型有足够的参数自由度,可能表征驾驶场景中的车道线线型。该曲线模型具备计算复杂性低、高稳固等劣势,并且曲线参数模型拟合的形式也能够防止其余冗余的后处理(例如 NMS)以及手动设计 Anchor。这些劣势都使得整体模型可能更加简洁高效。

本篇文章作者次要有两点翻新点:
1.提出了基于贝塞尔曲线拟合的车道检测办法
2. 提出了基于可变形卷积的特色反转交融模块

论文办法

贝塞尔曲线方程可由下式定义,曲线中的每个点均由多个控制点递归组合而确定。作者在试验过程发现,取 n = 3 根本满足车道线的拟合需要。

作者整个网络结构的设计由下图所示,首先利用一个特色网络(例如 ResNet)对输出图像进行特征提取,而后通过 特色翻转交融,并进行 pooling 操作,最初送入到分类分支和回归分支。

特色反转交融

作者发现,对于前装摄像头而言,所看到路面的车道线,往往具备肯定的对称性。例如:如果右边看到了一条车道线,往往对称的左边也会有一条。所以作者认为能够利用这个特色,进行对称的特色增强。当然,为了兼容可能呈现的不对称景象(例如:转弯、变道、线段不成对),作者应用了可变形卷积来进行一个偏置状况的学习。

Loss 的设定
在 loss 这块,作者应用在 Ground Truth Curve 与 Predict Curve 内做等间距插点,并利用这些点做 L1 Error 的形式作为模型训练的回归 Loss。整体表达式如下

作者提出,相似于 ABCNet[4] 中 利用控制点之间的 L1 Error 会呈现控制点之间差距大,而生成的曲线差距小的状况。如下图(a)所示,所以作者选用了下图(b)的形式进行 Loss 计算。并且,比照与经典的多项式回归算法中采纳的等 y 值采样,这种形式可能防止因为线段错位而引起的额定 loss 计算,如下图(c)所示。

试验后果

作者在 TuSimple(见上表)、CULane(见上表)、LLAMAS(见下表)等数据集上均做了比照试验

从整体的试验后果来看,作者提出的办法在精度体现上并不惊艳。单看最优的模型后果设计,与一年前的 LaneATT 在不同指标上平分秋色。不过当咱们连同模型速度一起比拟时,不难发现,得益于模型后处理的简洁,其 FPS 相较于等同构造的其余模型要高出一大截。当咱们将 FPS 大致相同的 BezierLaneNet(ResNet-34)与 LaneATT(ResNet-18)进行精度比拟时,能够发现 BezierLaneNet 还是具备了肯定的劣势。。

论断

本篇论文摸索了一种新的基于贝塞尔曲线拟合的车道线检测形式,并且证实其性能体现可能达到与其余类型的形式相近的水平。论文中试验论断给 Curve-base 相干办法的钻研指出了一条新的方向,在 Curve-base 办法中,一个易于拟合的曲线模型对整个算法精度的影响更为要害。

02《VectorMapNet: End-to-end Vectorized HD Map Learning》

摘要

对于环境的感知了解是主动驾驶畛域要害的一环。现行大多数办法采纳密集栅格化宰割预测(Dense Rasterized Segmentation Predictions)的形式进行环境感知。这种形式经常因为没有蕴含实例信息而要求进行简单的后处理。因为上述的起因,作者提出了一种 E2E 的 Semantic Map Leaning 办法,称之为 VectorMapNet。

本篇论文中,作者外围的奉献点在于:提出了 VectorMapNet 办法,并设计了 Map Element Detector 模块Polyline Generator 模块,可能兼容交通环境中多种不同类型的地图元素感知。

论文办法

在特征提取的局部,作者连续了 HDMapNet[3]的形式,利用 Image Feature 与 Lidar Feature 交融而成的 BEV Feature 作为整个网络的特色局部。与前者不同的是,这里 Image Feature 采纳了 IPM 的形式,利用多个不同高度的地立体投影失去多个不同 Channel 的 Feature 再与 Lidar Feature 进行交融。

在 Map Element Detector 局部,作者实际上采纳了 DETR 雷同的构造。作者利用这个构造来预测 Map Element 的 Keypoint 序列和 Type 类别。在训练的过程中,作者应用了二分图匹配的形式来作为 Ground Truth 和 Prediction 的匹配形式。

这里能够着重提一点的是对于作者应用的 Map Element Keypoint 的示意形式。作者提出了如下三种形容 Map Element 的模式,1)Bounding Box,最小的突围盒,由左下角点和右上焦点形成;2)SME(Start-Middle-End),蕴含起始点、两头点和完结点。3)Extreme Points,由最上点、最下点、最左点和最右点形成。

Map Element Detector 输入的 Keypoints 会做转换为两个 Embedding 模式。第一个是 Position Embedding,用于 批示 keypoint 在 keypoints 序列中的地位 ,第二个是 Embedding 用于批示关键点属于哪个 Map Element

Map Element Detector 输入的 Keypoints 及 type 将联结 BEV Feature 一并被送入 PolyLIne Generator 中,用于生成最终的 Polyline 示意,对于最初的 Polyline 生成形式,也遵循 PolyGen[5]的形式,由三个 Embedding 来示意每个 Token,1)Coordinate embedding,示意值代表的是 x 轴还是 y 轴;2)Position embedding,示意其所属的顶点;3)Value Embedding,示意其具体的值。

试验后果

作者在 nuScenes 上进行了比照试验。从指标精度上来看 VectorMapNet 的性能相较于上一版 HDMapNet 有比拟大的性能晋升,尤其在 Ped Crossing 和 Divider 这两个分类下面。

VectorMapNet 次要可能实现性能晋升的起因在于 Polyline 的示意模式 升高了对于 Map Element 编码的难度 ,其能够学习到整个 Map Element 之间的几何个性,而基于 Segmentation 模式的 Pixel-Wise Feature 很难做到这一点,并且在理论环境中, 雷同类型的 Map Element 的形态是多变的(如下图红色圈所示);其次是Polyline 的示意模式防止了具备歧义的后果,其生成的 Line 自身具备方向性,从而也可能防止产生环的可能(如下图蓝色圈所示)。

论断

本篇论文提出了一种 E2E 的 Map Element 检测形式,这种形式可能缩小额定的后处理开销,并且通过 Transformer 可能建设不同 Map Element 之间的分割,对最终后果造成相互促进作用。除此之外,因为所有的 Map Element 均通过 Polyline 的模式进行示意,可能同时 兼容交通环境中 Line Type 和 Area Type 两种不同类型的元素,让整个处理过程变得简略无效。

最初聊两句

行业倒退与学术研究之间密不可分,行业倒退过程一直的挖掘出具备价值意义的技术难题,学术研究的不断深入可能为产业倒退所遇到的难题提供技术解决方案。本次 CVPR 2022 还有很多优良的文章值得大家浏览学习,也欢送大家一起学习、一起探讨。

援用文章

[1] Xiang Li, Jun Li, Xiaolin Hu, and Jian Yang. Line-cnn: End-to-end traffic line detection with line proposal unit. ITS, 2019.
[2] Lucas Tabelini, Rodrigo Berriel, Thiago M Paixao, Claudine Badue, Alberto F De Souza, and Thiago Oliveira-Santos. Keep your eyes on the lane: Real-time attention-guided lane detection. In CVPR, 2021
[3] Li, Q., Wang, Y., Wang, Y. and Zhao, H., 2021. Hdmapnet: A local semantic map learning and evaluation framework. arXiv preprint arXiv:2107.06307.
[4]Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, and Liangwei Wang. Abcnet: Real-time scene text spot- ting with adaptive bezier-curve network. In CVPR, 2020.
[5]C. Nash, Y. Ganin, S. A. Eslami, and P. Battaglia. Polygen: An autoregressive generative model of 3d meshes. In International Conference on Machine Learning, pages 7220–7229. PMLR, 2020.

正文完
 0