关于人工智能:BEV感知的开源数据集分享

40次阅读

共计 6922 个字符,预计需要花费 18 分钟才能阅读完成。

BEV 感知系列分享是整数智能推出的一个全新分享系列,在这个系列中,咱们将介绍 BEV 感知相干的算法和数据集等内容。BEV 感知系列次要分为以下几篇文章:

  • BEV 感知,是下一代主动驾驶感知算法风向吗?🔗
  • BEV 感知的开源数据集分享
  • 更多干货正在更新中 …

在本篇中,咱们将介绍截止目前为止各大科研机构和企业推出的实用于 BEV 算法开发的主动驾驶数据集。
本篇介绍的数据集涵盖了真实世界的图像数据、点云数据和仿真构建的主动驾驶场景数据。所有这些数据集都提供了有价值的信息,钻研人员能够利用这些数据集来帮忙主动驾驶汽车开发 BEV 感知算法。

「本期划重点」

  • nuScenes:解决不足多模态数据集的问题
  • Waymo:以分片的 TFRecord 格式文件提供
  • Cam2BEV:语义宰割 BEV 视角的仿真数据集
  • Argoverse2:同时蕴含 6 个城市的高清地图
  • CityScapes 3D:仅应用平面 RGB 图像进行标记
  • OpenLane:第一个真实世界的 3D 车道数据集
  • DeepAccident:第一个用于主动驾驶大规模事变数据集
  • Apollo Synthetic, AIODrive:用于主动驾驶的仿真数据集

在 City 上面,“AS”代表亚洲,“EU”代表欧洲,“NA”代表北美,“Sim”代表模仿数据。在 Sensor Data 下,Scenes 是指数据集的剪辑(对于不同的数据集,Scenes 的长度是不同的),Scans 指导云数据。在 Annotation 下,Frames 示意 3D bbox/ 3D lane 正文帧的数量,3D bbox/ 3D lane 示意 3D bbox/ 3D lane 正文实例的数量,3D seg. 示意点云的宰割正文帧数

01「nuScenes」

  • 公布方:Motional
  • 下载地址:https://nuscenes.org/nuscenes…
  • 论文地址:https://arxiv.org/pdf/1903.11…
  • 公布工夫:2019 年
  • 简介:主动驾驶中平安导航的一个要害局部是检测和跟踪车辆周围环境中的人。为了实现这一指标,古代主动驾驶汽车部署了几个传感器和简单的检测和跟踪算法。这种算法越来越依赖于机器学习,这就促使人们须要基准数据集。尽管有大量的图像数据集用于此目标,但不足多模态数据集来展现与建设主动驾驶感知零碎相干的全副挑战,nuScenes 数据集就是来解决这个问题
  • 特色

    • 具备残缺的传感器套件(1 x Lidar、5 x Radar、6 x 摄像头、IMU、GPS)
    • 1000 个场景,每个场景 20 秒
    • 1,400,000 张相机图像
    • 390,000 次激光雷达扫描
    • 两个多元化城市:波士顿和新加坡,别离为左侧行驶和右侧行驶交通
    • 140 万个 3D 边界框,分为 23 个对象类别

nuScenes 数据集的例子,有 6 种不同的摄像头视图、激光雷达和雷达数据,以及人类正文的语义地图

02「Waymo」

  • 公布方:WAYMO
  • 下载地址:https://waymo.com/open/download/
  • 论文地址:https://arxiv.org/abs/1912.04838
  • 公布工夫:2019 年
  • 简介:数据集以分片的 TFRecord 格式文件提供,其中蕴含协定缓冲区数据。这些数据中训练集占 70%,测试集占 15%,验证集占 15%。该数据集由 103,354 个片段组成,每个片段蕴含 20 秒的 10Hz 的物体轨迹和该片段所笼罩区域的地图数据。这些片段被进一步宰割成 9 秒的窗口(1 秒的历史数据和 8 秒的将来数据),有 5 秒的重叠。数据以两种模式提供。第一种模式是存储为情景协定缓冲区。第二种模式是将 Scenario protos 转换为 tf.Example protos,蕴含用于建设模型的张量
  • 特色

    • 蕴含 1200 万个高质量、人工正文的 3D ground truth 框
    • 蕴含 1200 万个用于激光雷达数据,以及用于相机图像的 2D 严密拟合边界框
    • 所有 ground truth 框都蕴含反对指标跟踪的轨迹标识符,约 113k 激光雷达物体轨迹和约 250k 相机图像轨迹
    • 钻研人员能够应用数据集提供的滚动快门感知投影库,从三维激光雷达方框中提取二维正交相机方框

    激光雷达标签的例子。黄色 = 车辆,红色 = 行人,蓝色 = 符号,粉色 = 自行车

03「KITTI Bird’s Eye View Evaluation 2017」

  • 公布方:KITTI
  • 下载地址:http://www.cvlibs.net/dataset…
  • 官网地址:http://www.cvlibs.net/dataset…
  • 公布工夫:2017 年
  • 简介:针对鸟瞰数据的数据集,作者为一辆规范旅行车装备了两个高分辨率黑白和灰度摄像机,Velodyne 激光扫描仪和 GPS 定位系统提供精确的地面实况。该数据集在中型城市卡尔斯鲁厄四周的农村地区和高速公路上驾车拍摄,每张图像最多能够看到 15 辆汽车和 30 名行人
  • 特色

    • 蕴含 7481 张训练图像和 7518 张测试图像以及相应的点云
    • 共包含 80.256 个标记对象
    • 为了评估,计算了精度 - 召回曲线

04「Cam2BEV」

  • 公布方:RWTH Aachen University
  • 下载地址:https://gitlab.ika.rwth-aache…
  • 论文地址:https://ieeexplore.ieee.org/a…
  • 公布工夫:2020 年
  • 简介:该数据集是在模仿环境中创立的仿真数据集,在模仿中,自我车辆装备了四个雷同的虚构广角相机笼罩全 360 度盘绕视角,ground truth 数据由虚构无人机摄像机提供,BEV ground truth 图像位于自我载体上方的核心,视线大概为 70 米 x 44 米,输出和 ground truth 图像都以 964px x 604px 的分辨率记录
  • 特色

    • 针对可见区域思考了 9 个不同的语义类(路线、人行道、人、汽车、卡车、公共汽车、自行车、阻碍、植被)
    • 图像以 2Hz 的频率记录
    • 蕴含 33000 个用于训练的样本和 3700 个用于验证的样本

    数据集中四个视角的摄像机图像和 BEV 视角

05「Argoverse1」

  • 公布方:Argo AI
  • 下载地址:https://www.argoverse.org/av1…
  • 论文地址:https://arxiv.org/abs/1911.02620
  • 公布工夫:2019 年
  • 简介:该数据集由匹兹堡和迈阿密的主动驾驶车队收集。包含 7 个摄像头的 360°图像与重叠视线,从近程激光雷达获取的 3D 点云,进行 6 -DOF 姿势,和 3D 轨迹标注
  • 特色

    • 包含超过 300000 个 5 秒跟踪场景,用于轨迹预测
    • 第一个蕴含高清地图的主动驾驶数据集
    • 蕴含 290 公里的地图车道,并蕴含几何和语义元数据

    该数据集蕴含激光雷达测量序列,360°RGB 视频,侧面平面(中右),和 6 自由度定位。所有序列都与蕴含车道中心线(洋红色)、可驾驶区域(橙色)和高空高度的地图对齐。序列用 3D 长方体轨迹(绿色)进行正文。右下方显示了一个更宽的地图视图

06「Argoverse2」

  • 公布方:Argo AI
  • 下载地址:https://github.com/argoai/arg…
  • 论文地址:https://datasets-benchmarks-p…
  • 公布工夫:2021 年
  • 简介:Argoverse 2 是一组来自美国六个城市的开源主动驾驶数据和高清地图:奥斯汀、底特律、迈阿密、匹兹堡、帕洛阿尔托和华盛顿特区。这是同类数据中首批蕴含用于机器学习和计算机视觉的高清地图的数据版本之一。它汇合了三个数据集用于主动驾驶畛域的感知和预测钻研,别离是带正文的传感器数据集,激光雷达数据集和静止预测数据集
  • 特色

    • 在所有三个数据集中每个场景都蕴含本人的 3D 车道和人行横道几何高清地图
    • 由 25 万个不重叠的场景组成,从美国 6 个独特的城市驾驶环境中开掘
    • 共蕴含 10 种对象类型,其中动静和动态类别各有 5 种
    • 每个场景包含一个本地矢量图和 11 秒(10Hz)的轨迹数据(2D 地位、速度和方向),每种情景的前 5 秒记为观测窗口,后 6 秒记为预测窗口

    数据集中各种对象类型的混合(车辆、行人、公共汽车、骑自行车的人或骑摩托车的人),自主车辆用绿色示意

07「Lyft L5」

  • 公布方:Woven Planet Level 5
  • 下载地址:https://level-5.global/data/p…
  • 官网地址:https://level-5.global/
  • 公布工夫:2020 年
  • 简介:该数据集领有超过 1000 小时的数据,这些信息是由 20 辆主动驾驶汽车组成的车队在加利福尼亚帕洛阿尔托的一条固定路线上历时 4 个月收集的,数据集中包含自主车队遇到的汽车、骑行者、行人和其它交通代理的挪动日志。这些日志来自通过公布方团队的感知零碎解决的原始激光雷达、摄像头和雷达数据,非常适合训练静止预测模型
  • 特色

    • 数据集包含 1000+ 交通代理挪动小时数
    • 蕴含 170,000 个场景,每个场景长 25 秒,捕获主动驾驶汽车四周的环境,每个场景都在给定工夫点对车辆周围环境的状态进行编码
    • 蕴含有 15242 个标记元素的高清语义地图和该地区的高清鸟瞰图

    数据集中场景的例子,投影在鸟瞰图的栅格化语义地图上。主动驾驶车辆为红色,其它交通参与者为黄色,车道色彩示意行驶方向

08「H3D」

  • 公布方:Honda
  • 下载地址:http://usa.honda-ri.com/H3D
  • 论文地址:https://arxiv.org/abs/1903.01568
  • 公布工夫:2019 年
  • 简介:这是一个应用 3D LiDAR 扫描仪收集的大规模全盘绕 3D 多指标检测和跟踪数据集。H3D 具备独特的数据集规模,丰盛的正文和简单的场景,能够促成全盘绕三维多指标检测和跟踪的钻研
  • 特色

    • 蕴含 160 个拥挤和高度互动的交通场景
    • 在 27721 帧中共有 100 万个标记实例

    在 BEV 视角中的检测案例

09「CityScapes 3D」

  • 公布方:CITYSCAPES
  • 下载地址:https://www.cityscapes-datase…
  • 论文地址:https://arxiv.org/abs/2006.07864
  • 公布工夫:2020 年
  • 简介:CityScapes 3D 具备实用于所有类型车辆的 3D 边界框正文以及 3D 检测工作的基准,与现有的数据集相比,该数据集的 3D 正文仅应用平面 RGB 图像进行标记,并捕捉了所有 9 个自由度。与基于激光雷达的办法相比,这导致了 RGB 图像中像素准确地重投影和更高范畴的正文。为了简化多任务学习,公布方提供了 2D 实例段与 3D 边界框的配对
  • 特色

    • 仅应用平面 RGB 图像取得高空 ground truth 正文
    • 提供残缺的 3D 方向标注,包含偏航、俯仰和滚转角度,已笼罩刚性物体的所有九个自由度
    • 蕴含 5000 张图片,分为 2975 张用于训练,500 张用于验收,1525 张用于测试

    数据集中鸟瞰图标签辅助的例子

10「OpenLane」

  • 公布方:上海人工智能实验室主动驾驶团队
  • 下载地址:https://github.com/OpenPercep…
  • 论文地址:https://arxiv.org/abs/2203.11089
  • 公布工夫:2022 年
  • 简介:OpenLane 是第一个具备高质量标记和微小多样性的大规模实在 3D 车道数据集。OpenLane 是在 Waymo Open 数据集上构建,遵循雷同的数据格式和评估管道。标注员正文了每一帧中的所有车道,因为简单的车道拓扑构造,例如十字路口 / 盘旋处,在 OpenLane 中一帧能够蕴含多达 24 个车道,大概 25% 的帧中有超过 6 个车道
  • 特色

    • 蕴含 20 万帧,超过 88 万个实例级车道,14 个车道类别,以及场景标签和门路关闭对象标注
    • 除了车道检测工作,数据集中还标注了(a)场景标签,如天气和地位;(b)最近门路对象(CIPO),定义为最关注的指标对象

    OpenLane 的正文样本与其它车道数据集的比拟

11「Apollo Synthetic」

  • 公布方:appolo
  • 下载地址:https://developer.apollo.auto…
  • 官网地址:https://developer.apollo.auto…
  • 公布工夫:2019 年
  • 简介:Apollo Synthetic 是一个用于主动驾驶的仿真合成数据集。它蕴含 27.3 万个不同的来自各种高视觉保真度的虚构场景,包含高速公路、城市、住宅、市中心、室内停车场环境。这些虚拟世界是用 Unity 3D 引擎创立的。合成数据集的最大劣势是它提供了准确的高空实在数据。另一个益处是更多的环境变动,如一天中不同的工夫,不同的天气条件,不同的交通 / 阻碍,以及不同的路面品质。该数据集提供了大量的 ground truth 数据,二维 / 三维物体数据,语义 / 实例级宰割,深度和三维车道线数据
  • 特色

    • 包含简直所有的路线场景
    • 更多的环境变动
    • 提供大量的 ground truth 数据

12「DeepAccident」

  • 公布方:香港大学
  • 下载地址:https://hku-deepaccident.gith…
  • 官网地址:https://hku-deepaccident.gith…
  • 公布工夫:2022 年
  • 简介:DeepAccident 数据集是首个用于主动驾驶的大规模事变数据集,蕴含全面的传感器集,反对各种主动驾驶工作。值得注意的是,对于每个场景都有四个数据收集车辆,两个设计用于互相碰撞,另外两个别离跟在前面。因而,DeepAccident 还能够反对多车协同主动驾驶
  • 特色

    • 装置了 64 线 LiDAR,并装置了六个 1920×1080 分辨率的摄像头,以提供 360 度的环境视线
    • 数据集中有三种类型的坐标零碎,包含世界坐标、车辆坐标和传感器坐标
    • 记录了采集车 100 米范畴内物体的地位、偏航角、大小和速度。对于高精地图,数据集中提供了范畴内的地图信息,确保数据采集车在任何工夫步都能取得 100 米范畴内的地图,每个地图点都蕴含其地位、方向以及类型数据
    • 蕴含 21 种类型,包含驾车、骑车、人行道、停车等

    数据集种的图像示例

13「AIODrive」

  • 公布方:卡内基梅隆大学
  • 下载地址:http://www.aiodrive.org/downl…
  • 论文地址:http://www.xinshuoweng.com/pa…
  • 公布工夫:2022 年

    • 简介:为了翻新持重的主动驾驶多传感器多任务感知零碎,汇合现有数据集的各种劣势,作者提出 AIODrive,这是一个综合的大规模数据集,提供了全面的传感器、正文和环境变动
    • 特色

      • 8 种传感器模式(RGB, Stereo, Depth, LiDAR, SPAD-LiDAR, Radar, IMU, GPS)
      • 所有支流感知工作(检测,跟踪,预测,宰割,深度预计等)的正文
      • 非散布驾驶场景(顽劣天气和照明,拥挤场景,高速驾驶,违反交通规则和车辆碰撞)

    2D-3D 语义宰割正文

14「ONCE」

  • 公布方:华为
  • 下载地址:https://once-for-auto-driving…
  • 论文地址:https://arxiv.org/abs/2106.11037
  • 公布工夫:2021 年
  • 简介:为了解决数据有余的问题,ONCE(One millionN sCenEs)数据集蕴含 100 万个三维场景和 700 万个相应的二维图像,从数量上看比最大的 Waymo Open 数据集多 5 倍,而且三维场景的记录时间为 144 个驾驶小时,比现有数据集长 20 倍,涵盖了更多不同的天气条件、交通条件、时间段和地区
  • 特色

    • 100 万 LiDAR 帧,700 万相机图像
    • 200 平方公里的驾驶区域,144 小时驾驶工夫
    • 15000 个齐全正文的场景,有 5 个类别(汽车、公共汽车、卡车、行人、自行车)
    • 多样的环境(白天 / 夜晚,晴天 / 雨天,城市 / 市区)

    ONCE 中图片和点云图像

15「A2D2」

  • 公布方:奥迪
  • 下载地址:https://www.a2d2.audi/a2d2/en…
  • 论文地址:https://arxiv.org/abs/2004.06320
  • 公布工夫:2021 年
  • 简介:该数据集包含同时记录的图像和 3D 点云,以及 3D 边界框、语义宰割、实例宰割和从汽车总线提取的数据。数据集总的传感器套件包含六个摄像头和五个激光雷达单元,提供 360°笼罩,记录的数据进行工夫同步和互相注册
  • 特色

    • 语义宰割蕴含 41280 帧,蕴含 38 个类别
    • 数据集中为 12499 帧提供了 3D 边界框,标注了 14 个与驾驶相干的类别

    A2D2 数据可视化。从左起:语义宰割,3D 边界框,点云,单帧点云叠加在相机图像

16「A*3D」

  • 公布方:Singapore University of Technology and Design
  • 下载地址:https://github.com/I2RDL2/AST…(github 链接,数据集仍有些问题需解决,需邮件分割作者获取)
  • 论文地址:https://arxiv.org/abs/1909.07541
  • 公布工夫:2019 年
  • 简介:由 RGB 和 LiDAR 数据组成,具备显著的场景、工夫和天气多样性。该数据集由高密度图像(约等于 KITTI 数据集的 10 倍)、高遮挡、大量夜间帧(约等于 nuScenes 数据集的 3 倍)组成,填补了现有数据集的空白,将主动驾驶钻研的工作边界推至更具挑战性的高度多样化的环境
  • 特色

    • 蕴含 39K 帧、7 个类和 230K 3D 对象标注
    • 在不同工夫(白天,黑夜)和天气(太阳,云彩,雨)捕捉

    A*3D 数据集中的数据样本,蕴含 RGB 图像和相应的激光雷达数据,这两组白天和早晨的场景展现了环境中较高的物体密度

正文完
 0