关于自动驾驶:VSLAM1视觉SLAM的发展现状

原文地址： VSLAM（1）视觉 SLAM 的倒退现状

VSLAM 中应用的传感器通常包含单目相机、平面相机和 RGB- D 相机。单目相机和平面相机具备类似的原理，可用于各种室内和室外环境。RGB- D 相机作为一种非凡模式的相机，次要通过被动发射红外构造光或计算航行工夫（TOF）来间接取得图像深度。它使用方便，但对光线敏感，大多数状况下只能在室内应用。事件相机作为近年来呈现的一种新型相机传感器，能够获取到不同于传统相机的图像。事件相机是“事件”，能够简略到“像素亮度变动”。事件相机输入的变动是像素亮度，基于事件相机的 SLAM 算法仍处于初步钻研阶段。此外，作为一种基于视觉的经典 SLAM 零碎，视觉惯性交融在许多方面都获得了优异的成果。在图 1 中，咱们比拟了不同相机的次要性能。

图 1 不同相机之间的比拟。事件相机不是特定类型的相机，而是能够获取“事件信息”的相机。“传统相机”以恒定的频率工作，并具备显著的毛病，如拍摄高速物体时的通畅、含糊和适度曝光。然而，事件摄像机，作为一种相似于人眼的基于神经的信息处理办法，并没有这些问题。

SLAM 问题曾经存在了几十年。在过来的几十年中，呈现了许多优良的算法，只管关注点不同，但每一种算法都在不同水平上促成了 SLAM 技术的疾速倒退。一般来说，咱们能够从时耗、复杂性和准确性等多个角度评估 SLAM 算法。不过，咱们最关注它的准确性。

ATE（相对轨迹误差）和 RPE（绝对姿势误差）是用于评估 SLAM 精度的两个最重要的指标。

绝对姿势误差（RPE）用于计算雷同的两个工夫戳中姿势变动的差别，实用于预计零碎漂移。

相对轨迹误差（ATE）间接计算相机姿势的理论值与 SLAM 零碎的估计值之间的差。ATE 和 RPE 的基本原理如下：假如：给定的姿态估计值为 \(\Delta \)。下标示意工夫 t（或帧），其中假如预计姿态的每一帧的工夫与实在姿态对齐，并且总帧数雷同。

ATE：相对轨迹误差是预计姿势和实在姿势之间的间接差别，它能够间接反映算法的精度和全局轨迹一致性。须要留神的是，预计姿势和高空真实度通常不在同一坐标系中，因而咱们须要首先对它们进行配对：对于平面 SLAM 和 RGB-D SLAM，尺度是平均的，因而咱们必须通过最小二乘法 \(S\in SE(3) \) 计算从预计姿势到实在姿势的变换矩阵。对于具备尺度不确定性的单目相机，咱们须要计算从预计姿势到实在姿势的相似变换矩阵 \(S\in Sim(3)\)。因而，帧 i 的 ATE 定义如下：

与 RPE 相似，倡议将 RMSE 用于 ATE 统计。

RPE：绝对姿势误差次要形容由固定时间差 \(\Delta \) 分隔的两个帧的精度（与实在姿势相比），这相当于间接测量的里程计的误差。因而，帧 I 的 RPE 定义如下：

给定总数 n 和距离 \(\Delta \)，咱们能够取得 \((m=n-\Delta) \)RPE。而后咱们能够应用均方根误差 RMSE 来计算该误差，并取得总体值：

\(trans(E_i)\) 示意绝对姿势误差的平移局部。咱们能够从 RMSE 值的大小来评估算法的性能。然而，在实践中，咱们发现对于 \(\Delta \) 能够有很多抉择。为了全面掂量算法的性能，咱们能够遍历计算所有 \(\Delta \) 的均匀 RMSE：

EVO 是一个 SLAM 零碎评估的 Python 工具包，可用于各种数据集。它除了 ATE 和 RPE，还能够取得数据，还能够绘制测试算法和理论轨迹的比拟图，是一个十分不便的评估工具包。

SLAMBench2 是一个公开可用的软件框架，通过可扩大的数据集列表评估以后和将来的 SLAM 零碎。它包含开源和闭源的源代码，同时应用可比拟和指定的性能指标列表。它反对多种现有 SLAM 算法和数据集，如 ElasticFusion、ORB-SLAM2 和 OKVIS，集成新的 SLAM 算法与数据集非常简单。

此外，咱们还须要应用数据集来测试算法的特定可视化。用于测试 SLAM 性能各个方面的通用数据集如表 1 所示。

TUM 数据集次要包含多视图数据集、3D 指标辨认和宰割、场景辨认、3D 模型匹配、VSALM 以及各个方向的其余数据。依据利用方向，可分为 TUM RGB-D、TUM MonoVO 和 TUM VI。其中，TUM RGB- D 数据集次要蕴含具备实在高空轨迹的室内图像。此外，它还提供了两种评估轨道部分精度和全局一致性的办法，即绝对姿势误差和相对轨迹误差。TUM MonoVO 用于评估蕴含室内和室外图像的单目零碎。因为场景的多样性，高空真实性不可用，但执行了具备雷同起始地位的大型序列，从而能够评估循环漂移（cyclic drift）。TUM VI 用于视觉惯性里程计的评估。KITTI 数据集是卡尔斯鲁厄理工学院和丰田美国理工学院联结创立的驰名户外环境数据集。它是世界上主动驾驶场景下最大的计算机视觉算法评估数据集，包含单目视觉、双目视觉、Velodyne 激光雷达、POS 轨迹等。它是应用最宽泛的户外数据集。EuRoc 数据集是苏黎世 ETH 开发的视觉惯性数据集。Cityscape 是一个与主动驾驶相干的数据集，专一于像素级场景宰割和实例标注。此外，许多数据集用于各种场景，如 ICL-NUIM、NYU RGB-D、MS COCO 等。

表 1 SLAM 的通用开源数据集

自 SLAM 问世以来，它已广泛应用于机器人畛域。如图 2 所示，本文抉择了过来二十年中与移动机器人相干的近 1000 篇热门文章，并制作了该关键词热图。圆圈越大，关键字呈现的频率越高。圆圈层从内到外显示从过来到当初的工夫，色彩越红，越吸引人。连接线示意不同关键词之间存在分割（数据来自迷信核心网）。

如图 3 所示，视觉 SLAM 和语义 SLAM 相干论文的援用数量正在疾速减少。尤其是在 2017 年前后，视觉 SLAM 和语义 SLAM 的援用量激增。传统的 VSLAM 钻研获得了许多停顿。为了使机器人可能从更高的档次感知周围环境，语义 VSLAM 的钻研受到了宽泛的关注。此外，如图 4 所示，本文从 Web of Science 外围汇合中抉择了大概 5000 篇文章。从发表的对于 SLAM 的期刊题目来看，SLAM 是机器人学的一个热门话题。

图 2 移动机器人畛域的热词

图 3 最近几年无关可视化 SLAM 和语义 SLAM 的科学网文章的引文（数据截至 2021 年 12 月）。

图 4 科学网对于 SLAM 的出版物题目

此外，许多学者和团队为 SLAM 的钻研做出了不可磨灭的奉献。如图 5 所示，咱们剖析了 2000 年至 2022 年的约 4000 篇文章（数据来自科学网网站）。字体越大示意作者受到的关注最多，反之亦然。它们所属的国家如图 6 所示。

德国慕尼黑工业大学的计算机视觉小组是这一畛域的领导者。该团队公布了多种经典的视觉 SLAM 解决方案，如 DSO 和 LSD-SLAM，这些解决方案进步了视觉 SLAM 的各个方面的性能。瑞士苏黎世大学的机器人和感知小组也通过开发 SVO 和 VO/VIO 轨迹评估工具，为 SLAM 技术的疾速倒退做出了奉献。此外，苏黎世联邦理工学院计算机视觉与集成实验室也在这一畛域做出了大量致力。此外，他们在大规模户外地图的视觉语义定位畛域获得了许多突破性停顿。西班牙萨拉戈萨大学机器人、传感和实时组 SLAM 实验室是 SLAM 倒退的最大贡献者之一。实验室推出的 ORB-SLAM 系列是视觉 SLAM 中的标志性计划，对 SLAM 的钻研产生了深远的影响。此外，许多学者和团队的致力推动了视觉语义 SLAM 的疾速倒退，并为解决将来的各种问题奠定了根底。表 2 显示了一些优良团队的作品及其团队网站，供您参考。您能够通过团队名称后援用的数字查看团队的网站。

表 2 一些优良的团队及其奉献

图 5 视觉 SLAM 畛域的卓越学者

图 6 不同国家在 SLAM 畛域的奉献（从亮到暗的色彩示意从低到高的奉献）

关于自动驾驶:VSLAM1视觉SLAM的发展现状

01 VSLAM 中罕用的传感器

02 评估工具和数据集

03 基于文献数据的 SLAM 倒退剖析

04 卓越学者和团队