关于算法:浅谈CVPR2022-Traffic-Line

CVPR 2022 刚刚完结，而我最近一段时间始终在进行Traffic Line 相干的工作，所以趁着热度跟大家聊一聊CVPR 2022 中对于Traffic Line 相干的论文。这次次要筛选我认为比拟有意思的一些Paper来跟大家分享一下。

by 元戎感知组 Kivi·Wong

01 《Rethinking Efficient Lane Detection via Curve Modeling》

摘要

目前车道线解决计划蕴含以下三大类：

Keypoint-base Method：相似于物体检测的形式，将车道线看成由若干关键点组成的线，而后进行关键点检测。例如：Line-CNN[1]、LaneATT[2]
Segmentation-base Method：这种形式将车道线标注为图像宰割，通过图像宰割的形式进行车道线检测。例如：HDMapNet[3]
Curve-base Method: 首先预约义曲线模型，通过对曲线模型的学习来获取图像中的车道线示意。例如：PolyLaneNet[4]

目前支流的办法是Keypoint-base Method和Segmentation-base Method，基于Curve-base Method的办法在性能上落后于其余的两类办法。在此基础上，作者认为次要的起因在于基于多项式的曲线参数模式很难被学习。

面对上述的状况，作者提出了一个问题，Curve-base相干办法是否有可能达到SOTA的程度？
作者察看到，贝塞尔曲线模型有足够的参数自由度，可能表征驾驶场景中的车道线线型。该曲线模型具备计算复杂性低、高稳固等劣势，并且曲线参数模型拟合的形式也能够防止其余冗余的后处理（例如NMS）以及手动设计Anchor。这些劣势都使得整体模型可能更加简洁高效。

本篇文章作者次要有两点翻新点：
1.提出了基于贝塞尔曲线拟合的车道检测办法
2.提出了基于可变形卷积的特色反转交融模块

论文办法

贝塞尔曲线方程可由下式定义，曲线中的每个点均由多个控制点递归组合而确定。作者在试验过程发现，取n=3根本满足车道线的拟合需要。

作者整个网络结构的设计由下图所示，首先利用一个特色网络（例如ResNet）对输出图像进行特征提取，而后通过特色翻转交融，并进行pooling操作，最初送入到分类分支和回归分支。

特色反转交融

作者发现，对于前装摄像头而言，所看到路面的车道线，往往具备肯定的对称性。例如：如果右边看到了一条车道线，往往对称的左边也会有一条。所以作者认为能够利用这个特色，进行对称的特色增强。当然，为了兼容可能呈现的不对称景象（例如：转弯、变道、线段不成对），作者应用了可变形卷积来进行一个偏置状况的学习。

Loss 的设定
在loss这块，作者应用在Ground Truth Curve 与Predict Curve 内做等间距插点，并利用这些点做L1 Error的形式作为模型训练的回归Loss。整体表达式如下

作者提出，相似于ABCNet[4] 中利用控制点之间的L1 Error 会呈现控制点之间差距大，而生成的曲线差距小的状况。如下图（a）所示，所以作者选用了下图（b）的形式进行Loss计算。并且，比照与经典的多项式回归算法中采纳的等y值采样，这种形式可能防止因为线段错位而引起的额定loss计算，如下图（c）所示。

试验后果

作者在TuSimple（见上表）、CULane（见上表）、LLAMAS（见下表）等数据集上均做了比照试验

从整体的试验后果来看，作者提出的办法在精度体现上并不惊艳。单看最优的模型后果设计，与一年前的LaneATT 在不同指标上平分秋色。不过当咱们连同模型速度一起比拟时，不难发现，得益于模型后处理的简洁，其FPS相较于等同构造的其余模型要高出一大截。当咱们将FPS大致相同的BezierLaneNet（ResNet-34）与LaneATT（ResNet-18）进行精度比拟时，能够发现BezierLaneNet 还是具备了肯定的劣势。。

论断

本篇论文摸索了一种新的基于贝塞尔曲线拟合的车道线检测形式，并且证实其性能体现可能达到与其余类型的形式相近的水平。论文中试验论断给Curve-base 相干办法的钻研指出了一条新的方向，在Curve-base 办法中，一个易于拟合的曲线模型对整个算法精度的影响更为要害。

02 《VectorMapNet: End-to-end Vectorized HD Map Learning》

摘要

对于环境的感知了解是主动驾驶畛域要害的一环。现行大多数办法采纳密集栅格化宰割预测（Dense Rasterized Segmentation Predictions）的形式进行环境感知。这种形式经常因为没有蕴含实例信息而要求进行简单的后处理。因为上述的起因，作者提出了一种E2E的Semantic Map Leaning办法，称之为VectorMapNet。

本篇论文中，作者外围的奉献点在于：提出了VectorMapNet办法，并设计了Map Element Detector模块和Polyline Generator模块，可能兼容交通环境中多种不同类型的地图元素感知。

论文办法

在特征提取的局部，作者连续了HDMapNet[3]的形式，利用Image Feature 与Lidar Feature 交融而成的BEV Feature 作为整个网络的特色局部。与前者不同的是，这里Image Feature 采纳了IPM的形式，利用多个不同高度的地立体投影失去多个不同Channel的Feature 再与Lidar Feature 进行交融。

在Map Element Detector局部，作者实际上采纳了DETR雷同的构造。作者利用这个构造来预测Map Element 的Keypoint 序列和Type类别。在训练的过程中，作者应用了二分图匹配的形式来作为Ground Truth和Prediction的匹配形式。

这里能够着重提一点的是对于作者应用的Map Element Keypoint的示意形式。作者提出了如下三种形容Map Element的模式，1） Bounding Box，最小的突围盒，由左下角点和右上焦点形成；2）SME（Start-Middle-End），蕴含起始点、两头点和完结点。3）Extreme Points，由最上点、最下点、最左点和最右点形成。

Map Element Detector 输入的Keypoints会做转换为两个Embedding模式。第一个是Position Embedding，用于批示keypoint在keypoints序列中的地位，第二个是Embedding用于批示关键点属于哪个Map Element。

Map Element Detector输入的Keypoints及type 将联结BEV Feature 一并被送入PolyLIne Generator中，用于生成最终的Polyline示意，对于最初的Polyline生成形式，也遵循PolyGen[5]的形式，由三个Embedding来示意每个Token，1）Coordinate embedding，示意值代表的是x轴还是y轴；2）Position embedding，示意其所属的顶点；3）Value Embedding，示意其具体的值。

试验后果

作者在nuScenes上进行了比照试验。从指标精度上来看VectorMapNet的性能相较于上一版HDMapNet有比拟大的性能晋升，尤其在Ped Crossing和Divider这两个分类下面。

VectorMapNet次要可能实现性能晋升的起因在于Polyline的示意模式升高了对于Map Element编码的难度，其能够学习到整个Map Element之间的几何个性，而基于Segmentation模式的Pixel-Wise Feature很难做到这一点，并且在理论环境中，雷同类型的Map Element的形态是多变的（如下图红色圈所示）；其次是Polyline 的示意模式防止了具备歧义的后果，其生成的Line自身具备方向性，从而也可能防止产生环的可能（如下图蓝色圈所示）。

论断

本篇论文提出了一种E2E的Map Element检测形式，这种形式可能缩小额定的后处理开销，并且通过Transformer可能建设不同Map Element之间的分割，对最终后果造成相互促进作用。除此之外，因为所有的Map Element均通过Polyline的模式进行示意，可能同时兼容交通环境中Line Type和Area Type两种不同类型的元素，让整个处理过程变得简略无效。

最初聊两句

行业倒退与学术研究之间密不可分，行业倒退过程一直的挖掘出具备价值意义的技术难题，学术研究的不断深入可能为产业倒退所遇到的难题提供技术解决方案。本次CVPR 2022 还有很多优良的文章值得大家浏览学习，也欢送大家一起学习、一起探讨。

援用文章

[1] Xiang Li, Jun Li, Xiaolin Hu, and Jian Yang. Line-cnn: End-to-end traffic line detection with line proposal unit. ITS, 2019.
[2] Lucas Tabelini, Rodrigo Berriel, Thiago M Paixao, Claudine Badue, Alberto F De Souza, and Thiago Oliveira-Santos. Keep your eyes on the lane: Real-time attention-guided lane detection. In CVPR, 2021
[3] Li, Q., Wang, Y., Wang, Y. and Zhao, H., 2021. Hdmapnet: A local semantic map learning and evaluation framework. arXiv preprint arXiv:2107.06307.
[4]Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, and Liangwei Wang. Abcnet: Real-time scene text spot- ting with adaptive bezier-curve network. In CVPR, 2020.
[5]C. Nash, Y. Ganin, S. A. Eslami, and P. Battaglia. Polygen: An autoregressive generative model of 3d meshes. In International Conference on Machine Learning, pages 7220–7229. PMLR, 2020.