共计 2545 个字符,预计需要花费 7 分钟才能阅读完成。
主动驾驶汽车重大依赖输出的训练数据来做出驾驶决策,从逻辑上来说,数据越具体,车辆做出决策就越好,最重要的是更平安。尽管古代相机能够捕捉到十分具体的真实世界特色,但输入后果依然是 2D 的,成果并不够现实,因为它限度了咱们能够提供给主动驾驶汽车神经网络的信息,这意味着汽车必须学会对 3D 世界做出猜想。与此同时,相机捕获信息的能力无限,比方在下雨的时候,相机捕捉到的图像简直无奈分别,而激光雷达依然能够捕获信息。因而,2D 相机无奈在所有环境下工作,因为主动驾驶汽车是神经网络一个高危利用场景,咱们必须确保构建的网络尽可能完满,这所有要从数据说起。现实状况下,咱们心愿咱们的网络将 3D 数据作为输出,因为它须要对 3D 世界进行预测,这就是激光雷达的用武之地。
本文旨在对 LiDAR 技术和应用它的网络进行全面的介绍,包含以下内容:LiDAR 是什么以及它是如何工作的 神经网络如何解决 LiDAR 数据以及它们面临的挑战 LiDAR 数据与 2D 图像有何不同以及标注过程如何变动
LIDAR 到底是什么?
LiDAR 代表光检测和测距。简而言之,它是一种遥感技术,应用激光脉冲模式的光来测量传感器和指标物体之间的间隔和尺寸。在主动驾驶场景下,激光雷达用于检测物体绝对于车辆的地位,例如其余汽车、行人和建筑物。人工神经网络的日益遍及使激光雷达比以前更有用。激光雷达技术自 1960 年代以来始终被人们应用,过后它被装置在飞机上以扫描它们飞过的地形。随着 GPS 的呈现,LiDAR 在 1980 年代变得越来越风行,过后它开始被用于构建真实世界地位的 3D 模型。
LIDAR 是如何工作的?
大多数 LiDAR 零碎由四个局部组成:1) 激光:向物体发送光脉冲(通常是紫外线或近红外线)。2) 扫描仪:调节激光扫描指标物体的速度和激光达到的最大间隔。3) 传感器:测量来自激光的光从指标物体反弹并返回零碎所需的工夫(从而测量间隔)。4) GPS:跟踪激光雷达零碎的地位,以确保间隔测量的准确性。古代 LiDAR 零碎通常每秒能够发送高达 500k 的脉冲。来自这些脉冲的测量值被聚合成一个点云,它实质上是一组坐标,代表零碎曾经感应到的物体。点云用于创立 LiDAR 四周空间的 3D 模型。
点云(Velodyne LiDAR)
有两种个别类型的 LiDAR 零碎:机载和高空。因为咱们探讨的利用场景是主动驾驶汽车,咱们将次要关注高空激光雷达。高空激光雷达附着在固定在高空上的物体上,并在所有可见方向上进行扫描。它们能够是动态的(例如,连贯到不动的三脚架或建筑物上)或挪动的(例如,连贯到汽车或火车上)。
应用激光雷达数据进行深度学习
鉴于 LiDAR 系统生成的输入类型,将它们与神经网络相结合非常正当,并且的确在点云上运行的神经网络已被证实是无效的。激光雷达点云在主动驾驶汽车上的利用能够分为两类:
1)以指标检测和场景了解为目标的实时环境感知和解决。
2)生成用于指标定位和参考的高清地图和城市模型。
听起来可能很简单,但实际上它只是意味着 LiDAR 数据用于语义宰割、指标检测 / 定位和对象分类,惟一的区别是当初咱们在 3D 中进行,这使得咱们的模型有更多的细微差别。对于在激光雷达数据上运行的神经网络来说的一个挑战是,依据扫描时间、天气条件、传感器类型、间隔、背景和大量其余因素存在大量变动。因为激光雷达的工作形式,物体的密度和强度变化很大。再加上传感器常常有噪声,尤其是 LiDAR 数据通常不残缺(因为某些资料的低外表反射率和城市背景芜杂等因素),解决 LiDAR 数据的神经网络须要可能解决很多变动。3D 数据的另一个问题是,与 2D 图像不同,LiDAR 传感器的点没有直观的程序,这在咱们的模型中引入了对排列和方向不变性的需要,并非所有架构都满足。为解决 LiDAR 数据而提出的四个架构系列如下:
1)基于点云的办法:这些网络应用不同的办法间接在点云上运行。一种这样的办法是间接通过 MLP 学习每个点的空间特色,并通过最大池化来累积它们。
2)基于体素的办法:将 3D 数据划分为体素的 3D 网格(实质上是立方体网格),并在相似 CNN 的架构中利用 3D 卷积和池化。
3)基于图的办法:这些办法应用点云中存在的固有几何来构建图,并利用常见的 GNN 架构,如图 CNN 和图注意力网络(它们也恰好满足后面提到的置换不变性条件)。
4) 基于视图的办法:这些办法依赖于应用来自 2D 计算机视觉的久经考验的架构创立点云的 2D 投影。在这种状况下,一种有助于进步模型性能的策略是从不同角度创立多个投影并投票反对最终预测。
标注 LIDAR 数据
正如咱们当初所知,激光雷达数据上最常见的深度学习工作是指标检测、语义宰割和分类的变体。因而,LiDAR 标注与为这些工作标注图像十分类似。人工标注十分常见,但因为 LiDAR 数据更简单且可能令人困惑的性质,许多公司正试图应用事后训练的网络尽可能地自动化标注过程。因为 3D 数据的特点,对 3D 数据进行标注仿佛会变得很麻烦。但理论状况不肯定如设想的那么简单,对于 3D 语义宰割和 3D 对象分类,除了 3D 空间中的点比 2D 图像中的像素要多,理论标注过程与 2D 对应物简直是统一的。至于 3D 指标检测,绝对于 2D 图像惟一减少的复杂性是除了要标注指标的地位之外,咱们还须要标注它的方向,也就是指标面对的方向。能够看出,LiDAR 数据标注的次要阻碍并不是真正源于其数据有如许简单。只是 LiDAR 数据看起来不像 2D 图像那样简略直观,因而标注可能须要更长的工夫,尤其是对于不相熟此类数据的人,所以一套增强视觉性和可操作性的标注工具体现地非常重要,冰山數據为主动驾驶 LiDAR 数据开发了一套非常易于操作的标注工具,基于 CVAT(在之前的文章《2022 年 10 款最佳计算机视觉开源数据标注工具》中咱们有具体的介绍过)的优良个性开发,在之后的文章中,咱们将具体介绍咱们的 LiDAR 标注工具。
论断
如上文所述,LiDAR 是一种应用激光脉冲和传感器构周围环境的 3D 视图技术。尽管它自 1960 年代以来始终在应用,但现在最常见的用例之一是将 LiDAR 数据与主动驾驶汽车的神经网络相结合。常见的神经架构已被用于对 LiDAR 数据进行操作,只管须要进行一些必要的调整。尽管 LiDAR 生成的点云的性质使得数据格式与 2D 图像截然不同,但 LiDAR 标注过程并没有太大变动。