关于算法:多车立体事件相机数据集用于3D感知的事件相机数据集

以下文章来源于智能汽车开发者平台，作者 Alex Zihao Zhu1
编辑：一点人工一点智能
原文：多车平面事件相机数据集：用于 3D 感知的事件相机数据集

基于事件的摄像机是一种新的无源传感形式，与传统的摄像机相比有许多长处，包含极低的提早、异步数据采集、高动静范畴和极低的功耗。最近，人们对利用算法来应用事件执行各种 3D 感知工作十分感兴趣，比方特色跟踪、视觉里程数测量和平面深度预计。然而，目前不足像传统相机那样丰盛的标记数据，无奈用于测试和开发。在本文中，咱们展现了一个大型数据集，该数据集采纳了基于事件的同步平面摄影零碎，该零碎由一个手持式设施携带，在各种不同的照明程度和环境中，由一架六轴飞行器航行，在汽车顶部驱动，并装置在摩托车上。从每个相机中，咱们提供事件流、灰度图像和 IMU 读数。此外，咱们利用 IMU、刚性装置的激光雷达零碎、室内外静止捕获和 GPS 的组合，以高达 100Hz 的频率为每个摄像机提供精确的姿态和深度图像。为了进行比拟，咱们还提供了同步的灰度图像和基于框架的平面摄像机零碎的 IMU 读数。

基于 EVENT 的相机通过检测图像的对数强度的变动来感知世界。通过以几十微秒的精度记录这些变动，以及异步的、简直是即时的反馈，与传统相机通常有几十毫秒的提早相比，它们能够实现极低的提早响应。此外，通过跟踪日志强度的变动，摄像机具备十分高的动静范畴（>130dB，而传统摄像机约为 60dB），这使得它们对照明的戏剧性变动的场景十分有用，如室内 - 室外的过渡，以及有强光源的场景，如太阳。
然而，大多数古代机器人算法都是为同步传感器设计的，测量后果以固定的工夫距离达到。此外，生成的事件自身并不带有任何强度信息。

图 1：残缺的传感器设施，包含平面 DAVIS 相机、VI 传感器和 Velodyne 激光雷达
因而，必须开发新的算法以充分利用该传感器提供的劣势。可怜的是，因为测量方法的不同，咱们不能间接利用传统相机捕捉到的大量标签数据。事实证明，这些数据对于为新办法提供实在和统一的评估、训练机器学习零碎以及为无奈接触到这些传感器的钻研人员提供新的倒退机会来说，是极其重要的。
在这项工作中，咱们旨在提供一些不同的序列，以促成钻研和开发一些不同问题的新鲜解决方案。一个次要的奉献是建设了第一个具备同步平面事件摄像零碎的数据集。通过校准的平面零碎对于用度量衡进行深度预计很有帮忙，这有助于解决诸如姿态预计、绘图、避障和 3D 重建等问题。
在基于事件的摄像机的平面深度预计方面曾经有了一些工作，然而，因为不足精确的地面实况深度，评估只限于小的、不相干的序列，包含摄像机后面的几个物体。
相比之下，这个数据集提供了来自两个同步和校准的动静视觉和被动像素传感器（DAVIS- m346b）的事件流，在各种光照和速度下的室内和室外长序列，以及准确的深度图像和高达 100Hz 的姿态，由装置在相机顶部的激光雷达零碎产生，如图 1，同时还有静止捕获和 GPS。
咱们心愿这个数据集能够帮忙为一些利用中基于事件的算法评估提供一个独特的根底。
残缺的数据集能够在网上找到：https:// daniilidis-group.github.io/mvse
本文的次要奉献可演绎为：
● 第一组带有同步平面事件相机的数据集，具备精确的地面实况深度和姿势。
● 来自手持式钻机、六轴飞行器、汽车和摩托车的事件数据，以及来自 3D 激光雷达、IMU 和基于框架的图像的校准传感器数据，来自各种不同的速度、照明程度和环境。

目前，有一些现有的数据集提供了来自单目事件相机的事件，并与其余各种传感形式和地面实况测量相结合，实用于测试一些不同的 3D 感知工作。
Weikersdorfer 等人 [1] 将晚期的 128×128 分辨率的 eDVS 传感器与 Primesense RGBD 传感器联合起来，并提供了一个室内序列的数据集，其地面实况姿态来自静止捕获零碎，深度来自 RGBD 传感器。
Rueckauer 等人 [2] 提供了来自 DAVIS 240C 相机的纯旋转静止的数据，以及基于陀螺仪报告的角速度的地面实况光学流，只管这受到报告速度中的乐音影响。
Barranco 等人 [3] 提出了一个数据集，其中的 DAVIS 240B 相机装置在一个平移歪斜安装的顶部，与微软的 Kinect 传感器一起连贯在一个挪动基地上。该数据集提供了基地在室内环境中以 5 自由度挪动的序列，以及来自基地上的轮子编码器和平移歪斜安装的角度的地面实况深度、光学流和姿态。
尽管来自 Kinect 的深度是精确的，但光学流和姿态会受到底座的轮子编码器的地位预计的影响而产生漂移。
Mueggler 等人 [4] 提供了一些用于在各种室内和室外环境中进行姿态预计的手持序列，这些序列由 DAVIS 240C 生成。一些室内场景提供了姿势的根底实在，是由动作捕获零碎捕捉的。然而，没有户外序列，或其余具备显著位移的序列，具备地面实况信息。
Binas 等人 [5] 提供了一个装置在汽车挡风玻璃前面的 DAVIS 346B 的大型数据集，其中有 12 个小时的驾驶，旨在对各种驾驶相干的工作进行端对端学习。
作者提供了一些来自车辆的辅助测量数据，如转向角、加速器踏板地位、车速等，以及来自 GPS 安装的经度和纬度。然而，没有提供 6 自由度的姿态，因为只能从所提供的 GPS 输入中推断出 2D 平移。
这些数据集为开发和评估基于事件的办法提供了贵重的数据。然而，迄今为止，他们只有单目序列，地面实况 6 自由度的姿态仅限于小型室内环境，很少有序列具备地面实况深度。
相比之下，这项工作提供了在各种室内和室外环境中具备地面实况姿势和深度图像的平面序列。

晚期的工作 [6]，[7] 提出了平面深度预计的后果，有一些空间和工夫老本。起初在 [8]、[9] 和[10]的工作中，将平面深度的单干办法适应于基于事件的摄像机，因为它们实用于异步的、基于点的测量。同样，[11]和 [12] 利用了一套工夫、极性、排序和极性束缚来确定匹配，而 [13] 则将其与基于方位仪库输入的匹配进行比拟。
作者在 [14] 中展现了一种新的办法来确定外极线，利用于立体匹配。在 [15] 中，作者提出了一个新的上下文描述符来进行匹配，[16]中的作者应用了一个经验纯旋转的平面事件相机来进行深度预计和全景拼接。
也有一些对于基于事件的视觉测距和 SLAM 问题的工作。作者在 [17] 和[18]中提出了在事件空间中进行特色跟踪的新办法，他们在 [19] 和[20]中对这些办法进行了扩大，别离进行视觉和视觉惯性测距。
在 [1] 中，作者将一个基于事件的相机与深度传感器联合起来，进行视觉测距和 SLAM。[21]中的作者应用事件来预计摄像机的角速度，而 [22] 和[23]则通过建设一个最高比例的地图来进行视觉测向。
此外，[24]和 [25] 还将事件与来自 IMU 的测量值相交融，进行视觉惯性测距。
尽管较新的作品基于公共数据集进行评估，如 [4]，但大多数是在仅为论文而产生的小数据集上进行评估，使得性能的比拟变得很艰难。对于基于平面事件的摄像机来说，状况尤其如此。
在这项工作中，咱们试图产生更宽泛的根底假相，以便对新算法进行更有意义的评估，为办法之间的比拟提供根底。

对于该数据集中的每个序列，咱们以 ROS bag1 格局提供以下测量后果：
● 事件，APS 灰度图像和来自左右 DAVIS 相机的 IMU 测量。
● 来自 VI 传感器的图像和 IMU 测量。
● 来自 Velodyne VLP-16 激光雷达 2 的点云。● 右边 DAVIS 相机的地面实况参考姿态。
● 右边和左边 DAVIS 相机的地面实况参考深度图像。

表 I 中列出了传感器及其特点。此外，图 2a 显示了传感器安装的 CAD 图，所有的传感器轴都被表明，图 2 显示了传感器在每辆车上的装置形式。

图 2：从左到右：（a）：传感器安装的 CAD 模型。所有的传感器轴都被贴上标签，并涂上对应的色彩：R:X、G:Y、B:Z，每对轴之间只有大概 90 度的旋转组合。(b): 装置在六轴飞行器上的传感器包。(c): 应用玻璃吸力三角架装置在汽车天窗上的传感器包。(d): DAVIS 相机和 VI 传感器装置在摩托车上。请留神，在所有的配置中，VI 传感器都是倒着装置的。最好以黑白形式观看。
表 1 传感器和特色
如第五节所述，所有传感器之间的外在因素是通过校准来预计的。
对于事件的产生，两个实验性的 mDAVIS-346B 相机被装置在一个程度的平面设置中。这些相机与 [26] 类似，但具备更高的 346×260 像素的分辨率，高达 50fps 的 APS（基于帧的图像）输入，和更高的动静范畴。立体声设施的基线是 10 厘米，摄像机的工夫戳同步是通过应用从左侧摄像机（主摄像机）产生的触发信号，通过内部电线向右侧（从摄像机）输送同步脉冲。
两台摄像机都有 4 毫米的镜头，程度视场角约为 87 度，每台摄像机上都有一个额定的红外切割滤波器，以克制来自静止捕获零碎的红外闪光。APS 的曝光是手动设置的（没有主动曝光），这取决于照明条件，但相机之间总是雷同的。
尽管灰度 DAVIS 图像的工夫戳是同步的，但遗憾的是没有方法同步图像采集自身。因而，图像之间可能有高达 10ms 的偏移。
为了提供地面实况的参考姿态和深度（第四节），咱们将 Velodyne Puck LITE 装置在平面 DAVIS 相机上方。
Velodyne 激光雷达零碎提供了传感器四周大量点的高度准确深度。激光雷达的装置形式是，激光雷达较小的垂直视场与平面 DAVIS 设施的视场齐全重叠。
在室外场景中，咱们还装置了一个 GPS 设施，作为经纬度的第二个地面实况参考。通常状况下，GPS 被搁置在远离传感器安装的中央，以防止 USB 3.0 数据线的烦扰。
此外，咱们还装置了一个 VI 传感器[27]，最后由 Skybotix 开发，用于与基于框架的办法进行比拟。该传感器与 IMU 有一对立体声，都是同步的。可怜的是，惟一的装置抉择是将摄像机倒置装置，但咱们提供了它们与 DAVIS 摄像机之间的转换。

表二中列出了所有的序列和统计摘要，图三中列出了叠加了事件的 APS 图像样本。
1) 具备静止捕获性能的六轴飞行器：传感器装置在六轴飞行器的计算堆上面，向下倾斜 25 度，如图 2b 所示。两个静止捕获零碎被用来为这个数据集生成序列，一个在室内，一个在室外（图 4）。
26.8m x 6.7m x 4.6m 的室内区域用 20 台 Vicon Vantage VP-16 摄像机进行检测。30.5 米 x 15.3 米 x 15.3 米的户外网区装备了全天候静止捕获零碎，由 34 台高分辨率 Qualisys Oqus 700 摄像机组成。
这两个零碎通过发射红外频闪和跟踪搁置在六轴飞行器上的红外反射标记，以 100Hz 的频率提供毫米级精度的姿态。咱们在每个区域提供不同长度和速度的航行序列。
2) 手持式：为了测试高动静范畴状况下的性能，整个传感器安装在室外和室内环境以及有无内部照明的室内环境中都进行了循环。地面实况姿势和深度是由激光雷达 SLAM 提供的。
表二：每辆车的序列。T：总工夫，D：总行驶间隔，lvlmax。最大线速度，lωlmax : 最大角速度，MER：均匀事件率。这些序列没有 VI-Sensor 的数据。+ 一个硬件故障导致这些序列的右侧 DAVIS 灰度图像生效。*
图 3：白天和早晨的室内和室外序列的样本图像与重叠的事件（蓝色和红色）。最好以黑白观看。
图 4：静止捕获场地。左：室内 Vicon 场地；右：户外 Qualisys 场地。
3) 户外驾驶：对于慢速到中速的序列，传感器安装被装置在一辆轿车的天窗上，如图 2c 所示，并以最高 12 米 / 秒的速度在西费城的几个街区行驶。
在白天和早晨的状况下都提供了序列，包含太阳间接在相机视线内的序列。地面实况是由激光雷达地图的深度图像，以及来自环形关闭激光雷达测距和 GPS 的姿势提供的。
对于高速序列，DAVIS 平面设施和 VI 传感器与 GPS 设施一起被装置在摩托车的车把上（图 2d）。这些序列波及以高达 38 米 / 秒的速度行驶。经度和纬度以及相对速度是由 GPS 提供的。

为了提供地面实况姿势，在有条件的状况下，会应用动作捕获姿势。否则，如果有激光雷达，Cartographer[28]将用于驱动序列，将激光雷达扫描和 IMU 数据交融成激光雷达的循环闭合 2D 姿势，利用第五章 D 节的校准将其转换为左 DAVIS 帧。
对于户外场景，咱们也提供原始的 GPS 读数。对于每个有激光雷达测量的序列，咱们运行激光雷达测绘（LOAM）算法 [29] 来生成密集的三维部分地图，这些地图被投射到每个 DAVIS 相机中，以 20Hz 的频率生成密集的深度图像，并为手持序列提供 3D 姿态。
咱们应用了两种独立的激光雷达测距算法，因为咱们留神到，LOAM 产生了更好的、排列更参差的部分地图，而 Cartographer 的环形闭合则产生了更准确的全局地位，对于较长的轨迹来说，漂移更少。
尽管 Cartographer 只预计了一个 2D 的姿态，但咱们置信这是一个无效的假如，因为所驾驶的路线在大多数状况下都有一个繁多的统一的等级。

对于室内和室外运动捕获畛域的序列，在每个工夫 t 的传感器设施 worldHbody(t)的主体框架的姿态是以 100Hz 测量的，精度为毫米级。对于户外序列，咱们依附 Cartographer 来执行循环闭合，并将激光雷达扫描和 IMU 数据交融到一个繁多的循环闭合的主体（在这种状况下是激光雷达）的 2D 姿态中，并使其漂移最小。
为了对最终姿态的品质进行量化掂量，咱们将地位与 GPS 测量值对齐，并为数据集中的每个户外序列提供叠加的卫星图像，以及所提供的高空实景和 GPS 之间的地位差别。图 7 提供了 Car Day 2 的样本笼罩，其中 Cartographer 和 GPS 之间的平均误差始终在 5m 左右，没有漂移。
这个误差在所有的户外驾驶序列中是统一的，总体平均误差为 4.7 米，与 GPS 的预期误差大小类似。请留神，440 秒左右的误差峰值是因为微小的 GPS 误差造成的，对应于笼罩图右上方的黑体局部。
在这两种状况下，对于每个从左 DAVIS 帧到帧取点的序列，外在的变换，示意为 4×4 的同质变换矩阵体 worldHDAVIS，而后用来预计工夫 t 的左 DAVIS 绝对于工夫 t0 的第一个左 DAVIS 的姿态：

在有激光雷达的每个序列中，每个 DAVIS 相机的深度图像都是为每个激光雷达测量而生成的。咱们首先通过将以后测量四周的部分窗口中的每个激光雷达点云转换为以后测量的框架，应用 LOAM 的姿态来生成一个部分地图。在每次测量时，确定窗口大小，使窗口中以后、第一和最初一个 LOAM 姿态之间的间隔至多为 d 米，并且以后、第一和最初一个 LOAM 姿态之间至多有 s 秒，其中 d 和 s 是为每个序列调整的参数。这些地图的例子能够在图 5 中找到。
而后，咱们应用规范的针孔投影方程，将所失去的点云中的每个点 p 投射到每个 DAVIS 相机的图像中：
其中 Π 是投影函数：
而 K 是矩形图像的相机本征矩阵（即投影矩阵的左上方 3×3）。
任何落在图像边界之外的点都会被抛弃，图像中每个像素地位上最靠近的点被用来生成最终的深度图，其例子能够在图 6 中找到。
此外，咱们还通过应用相机本征和 OpenCV 对改正后的深度图像进行勾销改正和扭曲，提供没有任何失真的原始深度图像。

在这一节中，咱们形容了为校准每个 DAVIS 和 VI-Sensor 相机的外在参数而进行的各种步骤，以及每个相机、IMU 和激光雷达之间的外在转换。所有的校准后果都以 yaml 模式提供。
应用 Kalibr 工具箱 3 [30], [31], [32]对相机本征、平面外征和相机 -IMU 外征进行校准，应用相机和范畴校准工具箱 4 [33]对左 DAVIS 相机和 Velodyne 激光雷达的外征进行校准。在动作捕获世界帧中的 Mocap 模型姿势与左 DAVIS 相机姿势之间的手眼校准是用 CamOdoCal5[34]进行的，并由人工进行微调。
图 5：为地面实况生成的样本地图。左图：汽车第 1 天序列的全图，绿色为轨迹; 右图: 来自 Hexacopter Indoor 3 序列的部分地图。

图 6：深度图像（红色）与事件叠加（蓝色），来自 Hexacopter Indoor 2 和 Car Day 1 序列。请留神，因为激光雷达的垂直视场和范畴无限，图像的局部区域（彩色区域，特地是顶部）没有深度。这些局部在数据中被标记为 NaN。最好以黑白形式观看。
图 7：GPS 和 Cartographer 在卫星图像上叠加的 Car Day 2 轨迹的比拟。请留神，Cartographer 和 GPS 之间的误差峰值对应于左侧笼罩图右上方的黑体局部，次要是因为 GPS 误差造成的。最好以黑白观看。
为了对消所装置设施的变动，在收集数据的每一天，以及每次批改传感有效载荷的时候，都要反复每一次校准。除了校准参数外，每天的原始校准数据也可按需提供，以便用户在须要时进行本人的校准。

为了校准相机和 IMU 之间的转换，在传感器安装在 AprilTag 网格前挪动的状况下记录了一个序列。这两个校准程序是离开的，以优化每个独自校准的品质。校准序列再次通过 Kalibr 运行，应用相机 -IMU 校准来预计每个相机和每个 IMU 之间的转换，给定先前的外在校准和相机 - 相机间的外在校准。

摄像机的内因和外因是应用 AprilTags[35]的网格来预计的，该网格在传感器支架前挪动，并应用 Kalibr 进行校准。每个校准都提供了每个相机的焦距和主点，以及相机之间的失真参数和外在因素。
此外，咱们通过找到能使左 DAVIS 的 IMU 和 VI 传感器的陀螺仪角速度大小的穿插相关性最大化的工夫偏移，来校准 DAVIS 平面对和 VI 传感器之间的工夫偏移。而后对数据集中的 VI 传感器信息的工夫戳进行批改，以对消这一偏差。

每个动作捕获零碎以 100Hz 的频率提供动作捕获帧中的 mocap 模型的姿态。然而，Mocap 模型帧与任何摄像机帧都不统一，因而须要进一步校准，以从静止捕获零碎中取得摄像机的姿态。
传感器安装以各种不同的姿态被动态地固定在 April- 网格的后面。每个姿态在工夫 ti 时，测量网格帧 aprilgrid HDAVIS(ti)中左 DAVIS 相机帧的姿态，以及 mocap 帧 mocap Hbody(ti)中 mocap 模型 (示意主体) 的姿态。而后，这些姿态被用来解决手眼校准问题，即把左 DAVIS 框架中的一个点转换为模型框架 bodyHDAVIS：
应用 CamOdoCal 进行优化，应用 [36] 中的线性办法，并应用 [34] 中形容的非线性优化办法进行从新筛选。

将一个点从激光雷达框架带到右边的 DAVIS 框架的转换，最后是应用相机和范畴校准工具箱 [33] 进行校准。四个大的棋盘图案被搁置在 DAVIS 相机的视场内，每台相机的一对图像被记录下来，同时还有一个残缺的激光雷达扫描。校准器而后预计出使摄像机和激光雷达观测到的棋盘相一致的平移和旋转。
然而，咱们发现，在查看投影的深度图像时，报告的变换有多达五像素的误差（图 6）。此外，因为激光雷达和摄像机不是硬件工夫同步的，两个传感器之间偶然会有显著的、继续的时间延迟。为了改善校准，咱们依据 CAD 模型的值来确定翻译，并手动调整了旋转和工夫偏移，以最大限度地进步深度和事件图像之间的重叠。为了视觉上的确认，咱们提供了每个摄像头的深度图像与事件的叠加。数据集中提供的激光雷达信息的工夫戳对工夫偏移进行了对消。

用于生成深度图的映射假如场景是动态的，通常不会过滤掉挪动物体上的点。因而，在追踪其余汽车上的点时，报告的深度图可能有高达两米的误差，等等。然而，与可用的数据总量相比，这些对象通常相当常见。如果须要，将来的工作能够波及对图像中的车辆进行分类，并从深度图中省略这些点。

静止捕获和 GPS 只应用主机的工夫与零碎的其余局部同步。这可能会导致报告的工夫戳与理论测量工夫之间呈现偏移。咱们在一台电脑上记录所有的测量后果，以缩小这种影响。此外，因为激光雷达的旋转速度，激光雷达点的测量和信息的工夫戳之间可能会有一些提早。

在生成每个序列时，应用了每个摄像机的默认偏置。然而，人们留神到，对于室内ﬂying 序列，正负事件的比例比通常要高（~2.5- 5 倍）。在这一点上，咱们不晓得是什么起因导致了这种不均衡，也不晓得调整偏置是否会均衡它。咱们留神到，这种不均衡在斑纹层上特地偏斜。咱们倡议应用事件极性的钻研人员在解决这些序列时要留神这种不平衡性。

咱们提出了一个新的平面事件相机的数据集，在一些不同的车辆和不同的环境中，有 6 自由度姿态和深度图像的地面实况。咱们心愿这些数据可能提供一个规范，在此基础上对新的基于事件的办法进行评估和比拟。
1、书籍举荐 -《基于多视图几何的机器人零碎视觉感知与管制》
2、书籍举荐 -《3D 形态剖析：根底、实践和利用》
3、书籍举荐 -《平面视觉物体检测》
4、梳理 | 平面视觉相机的劣势
5、书籍举荐 -《3D 计算机视觉》
6、多视图点云配准算法综述

关于算法:多车立体事件相机数据集用于3D感知的事件相机数据集

00 摘要

01 简介

02 相干工作

2.1 相干数据集

2.2 基于事件的 3D 感知

03 数据集

3.1 传感器

3.2 序列

04 地面实况的生成

4.1 地面实况姿态

4.2 深度图的生成

05 校准

5.1 摄像机的外在、外在和工夫校准

5.2 摄像机到 IMU 的外在校准

5.3 静止捕捉到相机的外在校准

5.4 激光雷达到相机的外在校准

06 已知问题

6.1 挪动对象

6.2 时钟同步性

6.3 DVS 偏置

07 总结