关于数据库:滴滴AR实景导航背后的技术

57次阅读

共计 6859 个字符,预计需要花费 18 分钟才能阅读完成。

桔妹导读:机场、商场、火车站等大型室内场合内 GPS 信号不稳固、室内面积大、路线简单、用户判断方向难等问题,给在大型场合内发单的乘客找上车点带来了很大的挑战,用户急需一种操作简略、交互敌对的疏导性能。本文讲述了应用三维重建技术、传感器计算技术和加强事实 (AR) 技术所开发的滴滴 AR 实景导航产品,并对开发过程中遇到的难点、挑战和解决思路开展介绍。

置信很多人都有过这样的经验:来到一个本人不相熟的场景,特地是在一些 GPS 信号不精确的室内场合,很难找到建筑物外部的一些特定地点。本文将以帮忙用户在大型机场等场合中疾速找到上车点为出发点,介绍滴滴 AR 实景导航产品研发过程中的挑战和关键技术。

1. 利用背景

咱们在用户调研中发现,在一些大型的机场、商场、火车站外部,滴滴乘客在下单胜利之后,往往须要更多的工夫能力找到上车点,其次要起因是在这些大型的室内场合中,GPS 信号不精确,而这些修建往往面积很大、外部路线简单,当乘客对场景不相熟时,找到上车点存在很大的艰难。为了解决这个问题,地图团队提出了“图文疏导”的形式来帮忙用户,通过特定场景的图片和文字的形式相结合来疏导用户找到上车点。与此同时,咱们也在继续摸索是否有更加直观、易了解的形式来帮忙用户,受到加强事实 (AR) 技术在游戏中利用的启发,咱们提出了应用 AR 的形式来帮忙用户找到上车点,最终开发出了滴滴 AR 实景导航产品。

当乘客在反对 AR 导航的场站,应用滴滴出行 App 抉择举荐上车点发单胜利后,能够通过产品界面中的 AR 按钮进入导航界面,并按指引操作,体验在 AR 元素指引下达到上车点。如下图所示。

2. 问题剖析 

想要给用户提供一个良好的导航产品,须要解决几个关键问题:第一,场景所在的地图是怎么样的;第二,如何确定用户的地位;第三,如何应用更加直观的形式疏导用户走到目的地。这些问题,在通常的室外场景来看,可能都不是 ” 问题 ”,因为能够间接应用现有的地图、GPS 定位、布局路线和 GPS 实时地位疏导达到目的地。然而这些能力在室内场景下,却变得很难。具体起因包含:在室内场景中,GPS 信号受到建筑物遮挡往往定位不精确,而现有的 Wi-Fi、基站等定位技术也因场景中基础设施状况的不同而体现出精度差别很大;同时,与室外相比,室内场景构造复杂度高、判断方向难,给用户疏导也带来很大的挑战。

为了解决上述问题,给用户提供更加敌对的室内导航服务,咱们推出了滴滴 AR 实景导航产品,其次要计划是采纳低成本的视觉定位技术来晋升用户的定位精度,并联合加强事实技术来将疏导信息显示到用户手机上,给用户提供所见即所得的交互体验。

3. 技术挑战

要想实现一个现实的 AR 导航系统,咱们调研了很多技术计划,最终抉择了基于视觉的三维重建技术来解决地图构建和门路计算的问题、视觉定位技术来提供更高精度的定位能力以及传感器地位推算与渲染技术来实现更加准确的 AR 交互显示。尽管上述技术在学术研究畛域曾经有了很多年的钻研,并产出了一些绝对成熟的计划,然而在施行过程中,也遇到了很多挑战:

(1)在三维重建方面

基于视觉的三维重建技术依赖相机拍摄到的场景图像进行三维构造复原,个别利用于办公室、公寓等几百平米的场景内。在机场、火车站、商场等超过几万平米的大型场景下,会存在人群密集、反复纹理多、光照变动大、场景空阔、狭长通道等不利于视觉重建的因素,这种超大事实室内场景三维重建是业界难题。

(2)在视觉定位方面

室内环境简单多样,室内空间布局、拓扑易受人为的影响,导致声、光、电等环境容易发生变化,对于以特色匹配为基本原理的定位办法,定位后果将受到较大影响。机场、火车站、商场内大量反复呈现的指示牌、广告牌都极易产生误匹配,影响定位的精度。

(3)在传感器地位推算方面

因为传感器噪声的存在,使得基于惯性传感器的地位推算存在累积误差。当长时间应用时,导致导航路线偏离正确门路,重大影响着用户体验。此外,用户行走行为和手机硬件的多样性,使得繁多模型的惯性传感器地位推算很难解决所有场景遇到的问题。因而,亟需提出一种模型自适应机制来晋升导航系统的准确度和鲁棒性。

4. 要害解决方案

为了解决上述问题,联合具体的利用场景以及技术积攒,咱们别离针对每个要害模块进行了系列优化,现简要分享一下。

▍基于视觉的三维重建技术

三维重建解决的是室内地图构建的问题。三维重建个别须要借助静止复原构造(Structure from Motion,SfM),其学术定义是「在未知的环境中,让一个机器人能进行环境的构建,并且预计本身的静止」。用艰深的语言讲,是利用相机拍摄到的图像或视频,复原整个场景的三维构造。零碎的输出是多张图像或视频流,输入是场景的三维构造和每张图像拍摄的位姿。相机位姿是 6 自由度,3 个自由度示意地位,3 个自由度示意姿势(相机朝向)。地位能够了解成三维空间当中的一个点,姿势就是这个相机的朝向,如果在二维上就是 360 度的朝向,扩大到三维就是一个球体的朝向。

首先咱们理解下 SfM 的技术框架,一共四个次要步骤:①数据采集;②特征提取;③数据关联;④构造复原。在复原场景的三维构造时,并不是应用图像中的所有像素点,而仅从图像中提取稳固、显著的点,也就是特色点;数据关联是确定有共视区域的两张图像中哪些特色点是对应的;后续会借助几何的办法以及最优化技术(Bundle Adjustment)将这些图像中的点复原为空间的三维点。整个问题最终被转化为大型非线性最优化问题求解,优化指标是重建的三维点重投影到图像中的地位与图像中的观测点地位差最小,也就是最小化重投影误差。

针对大型场站室内场景存在的人群密集、反复纹理多、场景有变动等挑战。咱们设计了一种基于视觉的大型室内场景三维重建计划:针对大型机场、火车站存在的规模大、场景简单(反复纹理、类似纹理、狭长通道、动静物体等),提出了一种基于视频的分块三维重建计划,首先构建图像间的关联图,问题能够建模成 Graph Cut 问题,能够主动进行数据分块;之后利用 Pose Graph Optimization 实现了块间合并与优化,并通过引入关键帧、点云抉择等策略,实现了自动化建图,效率晋升 70%,构建的超过 6 万平米的室内场站三维模型是业界已知的最大单体模型之一,下图是郑州机场的三维模型可视化成果。

郑州机场三维模型

▍视觉定位技术

在 AR 导航的应用场景中,定位的目标就是确定用户的地位。手机的定位源次要蕴含 3 大类:①导航卫星接收机:包含中国的北斗,美国的 GPS,欧洲的 Galileo、俄罗斯的 GLONASS 等;②内置传感器:包含加速度计、陀螺仪、磁力计、气压计、光线传感器、相机等;③射频信号:包含 Wi-Fi、蓝牙、蜂窝无线通信信号等。除了卫星导航接收机外,这些传感器和射频信号都不是为定位而设置的,尽管如此,这些传感器还是为咱们提供了很多的室内定位源。支流的全球卫星导航系统(Global Navigation Satellite System,GNSS)目前尽管曾经被大规模商业利用,在室外宽阔环境下定位精度已能解决大部分定位需要,但该类信号无奈笼罩室内,难以造成定位。室内环境简单,无线电波通常会受到障碍物的遮挡,产生反射、折射或散射,扭转流传门路达到接收机,造成非视距(non line-of-sight,NLOS)流传。NLOS 流传会使定位后果产生较大的偏差,重大影响定位精度。

通过充沛的调研与比照,思考到 Wi-Fi 指纹匹配形式定位精度 2~5 米,而蓝牙 iBeacon 作用间隔短且布设老本较低等问题,最终咱们采纳了视觉定位的形式。该办法基于相机交互的办法,定位精度可达亚米级,鲁棒性较好,且只需利用手机摄像头、老本较低,无需布设额定设施,而且随着近年视觉定位技术的一直优化迭代,其精度与鲁棒性已齐全能满足室内定位的需要。

(1)基于传感器交融的图像检索重排序技术

通常状况下,用户手机获取一张查问图后,首先对图像进行特征提取,而后采纳特征描述子对特色点进行形容,依据图中提取的大量 2D 特色点,会在以后场景三维模型中检索类似的 top N 张图像,依据最类似的图像进一步寻找 2D 点与模型中 3D 点的匹配,最初利用 RANSAC+PnP 求解,计算查问图的地位与姿势[R|t]。

然而因为室内场景存在大量人造物体,例如机场、火车站中大量呈现的指示牌,商场中大量呈现的广告牌,都很容易因为部分特色类似,导致谬误的匹配。思考到手机自身集成了磁力计和 GNSS 传感器,尽管这些低成本的传感器精度无限,但作为定位初值还是能够加以利用,咱们依据磁力计获取的大抵方位,以及 GNSS 获取的大抵地位作为先验常识,依据传感器的精度指标,对候选图像进行聚类,并将参数加权带入图像重排序(rerank)的计算公式,能够剔除具备显著方向差别或者地位差别显著的候选图像。在升高误匹配概率的同时,也显著进步了计算的效率,保障了定位后果的精度。

(2)基于上下文信息的位姿校对技术

因为室内人造构造的特殊性,很多场景都是对称建筑或者呈规定排列的几何布局,导致在视觉定位的时候,不仅是部分特色简直统一,甚至大范畴场景内的全局特色也是十分类似的,这就导致初始定位存在肯定概率的误匹配状况。当用户刚好位于此类区域的时候,很有可能会失去谬误的疏导信息。不过在理论状况中,这些容易混同的区域不会齐全截然不同,当用户挪动一小段距离或者视角发生变化的时候,往往会呈现具备显著区分度的地物特色,依赖这些信息能够对用户以后的位姿进行校对,从新生成一条正确的疏导路线。然而同样是特色匹配,以后后两帧信息都满足定位条件,但定位后果存在较大差别的时候,如何分辨到底哪个是正确的后果呢。这时就须要利用到上下文的信息,即咱们在定位的时候并不齐全依赖于一次的定位后果,而是一片区域或者一段轨迹中的多个定位后果,当这些后果呈现出较好的一致性的时候,通常有更大的概率是正确的定位,相同,那些部分特色类似的区域,因为匹配到了谬误的参考图像,其后果往往呈现出孤立的跳变,与前后帧并不能平滑过渡,行走轨迹也是不润滑的。利用这种定位后果的上下文信息,能够无效检测出谬误的定位后果,对其进行过滤,或者及时发现以后曾经处于谬误的疏导路线上,依据正确的后果进行校对。

▍传感器地位推算技术

在实现视觉定位后,须要依据手机的地位进行实时的路线指引和渲染,这里咱们应用了基于传感器的地位推算技术,通过读取手机上的传感器信息并联合人体静止模型等办法,推算出对应的地位。

惯性传感器包含加速度计和陀螺仪,通常还会与磁力计组合应用。每个传感器均具备三个自由度。加速度计测量施加给挪动设施的加速度读数,陀螺仪测量挪动设施的旋转静止,磁力计通过感知磁场的变动,推理出用户以后的朝向。这些传感器能够在没有内部数据的状况下确定挪动设施的地位,而不须要基础设施的辅助。基于惯性传感器的地位推算因为以下长处逐步成为钻研的热点:①低能耗全天 24 小时运行;②不受外界环境烦扰;③内置于每一部挪动智能终端。

现有的基于积分的惯性导航算法次要利用线性加速度计读数(加速度计读数减去重力数据)进行二次积分失去位移和陀螺仪读数积分失去姿势,继而解算以后地位。然而,惯性传感器具备噪声,导致惯性积分算法预计的地位很快飘移。因而,以后惯性积分算法次要利用于高精度惯性器件中,例如航天级别的惯性传感器。为了解决在低端手机中惯性传感器的迅速飘移问题,研究者们提出了 PDR (Pedestrian Dead Reckoning) 算法。

PDR (Pedestrian Dead Reckoning) 算法是一种基于绝对地位的地位推算办法,次要思维是给定初始地位和朝向,依据行走的位移推算出下一步的地位。次要包含计步、步长预计和朝向预计模块,如下图所示。计步次要是通过检测加速度计读数的峰值点实现步子辨认;步长预计利用一步之内的加速度计读数,依据人的身高、体重、步频等特色拟合以后一步的步长;朝向预计利用加速度计和陀螺仪读数,通过滤波或者优化技术实现设施的姿势预计,继而获取以后一步的行走朝向。因为上述每一个模块都会有误差,且对不同的人群和设施的多样性比拟敏感,随着工夫的推移,误差累积增大,直至导航系统不可用,为 AR 疏导带来了技术挑战。

为了解决上述技术挑战,咱们提出了鲁棒的地位推算算法,该办法发表在机器人畛域顶级会议 International Conference on Intelligent Robots and Systems (IROS) 2020 上。

所提出的办法次要包含基于步态强度的计步算法,基于步频和统计特色的步长预计算法,基于深度模型的朝向回归算法和基于机器学习的静止分类算法。上面介绍一下相干算法。

(1)基于步态强度的计步算法

给定三轴加速度计读数,首先对每一帧加速度计读数求取幅值。利用以后帧加速度计的幅值和其邻近数据,检测加速度计读数波形的峰值,每一个峰值对应着候选步子,如下公式所述:

其中,S 示意以后加速度计读数的状态,即是否为候选步子,如果为 1,则示意以后时刻检测到候选步子。

其次,依据长短窗内的加速度计读数的均值来判断以后时刻是否为候选步子,其下公式所述:

其中 示意短窗口内的加速度计读数的均值,示意长窗口内的加速度计读数的均值。

再次,依据加速度计数据计算步态强度,它形容了一步之内加速度的变动状况。当步态强度超过肯定阙值后,咱们认为以后时刻是候选步子:

其中,

下图展现了实在行走状态下步态强度的变动状况,其中蓝色点示意步态强度,红色点示意步点。

最初,当上述状态均获得 1 时,认为以后时刻为检测到一步,计算公式如下:

计步算法示意图如下图所示,其中蓝色曲线示意加速度计读数,红色三角形示意辨认到一步。

(2)步长预计算法

咱们提出了一种基于统计特色的步长预计算法,其中统计特色包含步频、一步内的加速度计读数的方差、极差的 n 次开方,计算公式如下所述:

其中,a, b, c 和 d 是超参数,依据理论利用进行训练。f 示意行走步频,示意加速度计读数极差的 m 次开方,示意加速度计读数的方差。

(3)朝向预计算法

现有的朝向预计算法利用互补滤波和卡尔曼滤波实现设施朝向的预计,而设施朝向和人员行走朝向之间存在变动的偏差角会导致 PDR 的位姿预计累积飘移。为了解决该问题,咱们利用深度学习算法来回归用户行走的朝向。具体而言,咱们提出了一种 heading-confidence 模型,采纳 LSTM 和 ResNet 作为深度网络框架。LSTM 次要负责行走朝向的回归,ResNet 次要负责行走速度的回归,最初,咱们设计了置信度函数来进行朝向的交融。

(4)静止分类

为了晋升 PDR 系统对静止类别的鲁棒性,咱们设计了一种基于梯度晋升决策树算法的静止分类模型。次要包含行走、随便行走、静止和手持设施摇晃四种姿势。通过辨认不同的行走姿势,咱们自适应的加载对应的模型参数,继而进步了 PDR 算法的精度。试验后果如下图所示。其中,彩色曲线示意参考真值,蓝色曲线示意没有静止分类的 PDR 算法轨迹,红色曲线示意引入了静止分类的 PDR 轨迹。能够看到,红色轨迹更加靠近于参考真值。

5. 总结

大型机场、商场、火车站外部的上车点疏导能力对用户体验影响很大,为了解决这个问题,地图团队做出了很多致力,推出了“图文疏导”计划来应用图像和文字的形式帮忙用户。同时,为了给用户提供更好的体验,咱们也推出了滴滴 AR 实景导航产品,应用人工智能算法等科技伎俩,为用户提供精确的、易用的导航产品,来帮忙用户更快的找到上车点。目前在郑州、深圳以及日本东京等 24 个机场、商场或者火车站上线了 AR 导航服务,数据显示,它能帮忙用户节俭近四分之一的工夫,让他们更便捷地达到上车点。与此同时,在南京火车站等大型场站,咱们正在进一步摸索基于 AR 导航的技术来帮忙乘客疾速到达公交站点。后续咱们将继续优化和打磨咱们的算法,为乘客和司机发明更多的价值。欢送大家体验咱们的产品,并对咱们提出贵重的意见,心愿通过咱们的致力能够为大家提供更好的出行体验。

团队介绍

滴滴地图视觉计算团队以应用计算视觉技术解决地图和出行场景中的痛点问题为指标,团队在指标检测、图像宰割、场景文字检测辨认、三维重建、SLAM、传感器计算等方向具备丰盛的技术积攒,并将技术与业务场景紧密结合,胜利落地地图更新、引擎赋能、场站 AR 导航等多个系列我的项目,施展了人工智能技术在降本增效、用户体验晋升等方面的独特劣势。团队积极关注前沿技术倒退,获得实例宰割、图像匹配等多项国内较量冠军,并在 NeurIPS、CVPR、AAAI、TIP 等顶级会议和期刊上发表多篇文章。

作者介绍

滴滴地图视觉计算团队负责人、计算机视觉方向博士,十余年计算机视觉畛域钻研和开发经验,在视觉剖析和了解畛域有较丰盛的算法钻研和我的项目落地教训。曾就任于微软,从事微软小冰视觉了解零碎的钻研和开发工作。累计发表视觉畛域会议和期刊论文 50 余篇,并领有多项国内和国内专利。

延长浏览

内容编辑 | Charlotte&Teeo
分割咱们 | DiDiTech@didiglobal.com

滴滴技术 出品

正文完
 0