关于索引:揭秘京东城市时空数据引擎JUST如何助力交通流量预测

51次阅读

共计 4357 个字符,预计需要花费 11 分钟才能阅读完成。

2014 年跨年夜上海外滩人流隐患事件,使得公共安全问题受到了整体社会的宽泛关注。解决这一问题的很重要一项工作就是:如何实时监控和疾速预测城市中每个中央的人流量。当某个中央的人流量超过给定的值或者有超过给定值的趋势时,相干部门能及时地采取相干措施,例如:疏散人群,交通引流等,这样能力避免喜剧的再次发生。

为防止相似公共安全隐患,解决因人流问题造成的交通、社会治安等问题,搭建城市实时人流监控预测零碎势在必行。

▲图 1 上海外滩的踩踏事件

京东城市作为零碎建设中标单位,对整个零碎的需要进行了初步剖析,发现一个区域的人流量与多种数据相干,如图 2 所示。

比方:(1)手机基站数据。当一个中央的手机信令数据越多时,阐明四周的人也越多;

(2)视频监控数据。从视频的画面中,可能辨认出大概有多少人;

(3)交通流量数据。某条路的交通流量直观的反映了某个区域的流入流出人数;

(4)出行轨迹数据。轨迹数据可能反映出人的流向;

(5)天气数据。人的出行受天气的影响,比方下雨天,人们都很少出门,因而天气数据也有助于人流量的预测;

(6)不同的地点所能承载的最大人流量是不同的。比方大型火车站,2 万的人其实不会造成公共安全威逼,然而如果一个小区忽然有 2 万人,那就须要留神了。因而,每个区域的修建类型(咱们称之为趣味点或 POI)、修建密度、路线构造等都能够帮忙人流的预警;

(7)最初,如果当时理解到诸如举办演唱会等事件信息,也有助于人流量的预测。

▲图 2 业务数据

下面说的这些数据,单从一项数据是无奈实时监测和无效预测某个区域的人流量的,因为一项数据仅仅反映某一方面的信息。必须综合利用尽可能多的数据,能力无效地实现人流量的监控与预警,确保公共安全。

通过剖析论证后,确定的大体思路是:(1)利用上述的多种数据计算出某个时间段每个区域的流入、流出的人流量;(2)采纳 AI 算法模型对城市中每个区域的人流量进行建模;(3)利用建设好的模型,依据最近一段时间各区域的人流量,疾速预测将来一段时间内每个区域的人流量,并给出潜在的预警。

整体解决思路确定之后,最要害的就是钻研数据并敲定建模办法。但问题是:(1)这么多品种的数据须要如何无效治理?(2)如何从各种类型数据中疾速地提取特色指标,例如人流量?(3)如何不便疾速地构建模型,并对模型进行有效性验证?

如果下面三个问题无奈高效解决,那人流监控及预测根本无法保障实时性。只有疾速监控和预测人流量,能力无效地实施交通管制、人流疏散,避免相似于踩踏事件的公共安全事故产生。

但这个问题要解决并不容易,首先,同类型的不同起源业务数据,数据格式可能不一样,没法对立建表,这样只能为每一份数据独自设计一张表,而且当入库数据量达到 1T 的时候,MySQL 数据库间接解体。即便好不容易能把数据导入到 MySQL 数据库,往往不足更深刻的 MySQL 数据库调优教训,一个简略的数据查问过程,耗时费劲。

针对这些窘境,京东城市自研了——时空数据引擎(JUST 引擎),通过把带有工夫、空间、地位属性的数据统称为时空数据,并且借助 JUST 引擎弱小的数据建模能力,将数据归类成 6 大类时空数据模型,所有的时空数据咱们都能够依照 6 大类数据模型进行入库治理。这 6 种数据类型的分类形式为:

一方面,世间万事万物都能够由实体对象以及实体对象之间的关系组成。若实体对象之间不存在关联,咱们称之为点数据;若实体之间存在关联,咱们称之为网数据。

另一方面,依据数据的工夫和空间的动静个性,咱们能够将数据分成 4 类:时空静态数据、空间动态工夫动态数据、空间动静工夫静态数据、时空动态数据。然而,因为同一物体在同一时刻只能呈现在一个中央,空间动静工夫静态数据不会存在。因而,依据时空动静个性,咱们将时空数据最终分成了 3 类,即:时空静态数据、空间动态工夫动态数据和时空动态数据。

综上,依据城市数据的时空个性以及实体间的关联性,咱们能够将城市数据划分成 (4-1)×2 = 6 类, 如图 4 所示。

(1)时空动态点数据:以空间点的模式存在,空间地位和读数都不随工夫变动。上述数据中,趣味点就是这类数据,例如,火车站一旦建好,它的地位、大小、分类等信息将不再随工夫变动;

(2)空间动态工夫动静点数据:以空间点的模式存在,其地位信息不随工夫变动,但会连续不断地产生读数。上述数据中,监控视频数据、天气数据就是这类数据;

(3)时空动静点数据,以空间点的模式存在,但地位和读数均随工夫变动。下面用到的数据中,事件数据就是典型的时空动静点数据。生存中的打车数据、订单数据也是这类数据;

(4)时空动态网数据,以网络的模式存在,地位和读数均不变动。下面用到的数据中,路网数据就属于此类;

(5)空间动态工夫动态网数据,是指空间网络上产生的一系列读数。例如交通流量,每条路上每隔一段时间都会产生一条读数;

(6)时空动态网数据,以网的模式存在,且空间地位和读数一直变动。下面用到的轨迹数据就是一种非凡的时空动态网数据。

回到人流预测场景,计算某个区域的相对流出人数,就是计算出某个时刻的总人数绝对于上一时刻的总人数的差值。这是典型的时空范畴查问的问题。传统的关系型数据库,例如 MySQL、Oracle 以及 PostGIS,尽管整合了时空数据管理的模块,可能满足小数据量的时空范畴查问。然而一旦数据量很大,零碎就会解体。

针对海量数据,目前采纳的支流办法是分布式非关系型数据库,例如 HBase。然而,原生的 HBase 是一个键值(key-value)数据库,只能依据一维的键值疾速找到记录,没有无效的时空索引(时空数据能够看成是 3 维的:经度、纬度、工夫),无奈高效实现时空范畴查问等查问剖析。此外,HBase 自身没有对时空数据进行优化存储,因而占用的磁盘空间十分大。以轨迹数据为例,传统的存储形式如图 5 所示,每个 GPS 点占用一行数据,造成数据条目数与 GPS 点的数目雷同,导致存储空间开销很大。

▲图 5 传统 HBase 轨迹数据存储形式

针对这些问题,JUST 引擎为 HBase 创立了多种高效时空索引,将多维的时空信息编码到一维的键当中,可能疾速定位诸如时空范畴查问等查问的数据。以后 JUST 反对的时空索引如图 6 所示,别离对应不同的数据查问场景。

这就好比你在图书馆的书架上找书的过程,没有创立时空索引的 HBase,须要你在书架上一本一本地查找你要的书。而领有时空索引的 JUST 会通知你,你所须要的书在哪个书架、第几层、第几本中,大大减少你的查找时间。

除此之外,JUST 还对 6 种时空数据类型的每种数据类型设计了最佳的索引存储形式以及数据分析办法。还是以轨迹数据为例,咱们预置了多种开箱即用的轨迹解决办法,包含轨迹异样值过滤、轨迹分段、轨迹地图匹配、轨迹插值等;对于每条分段后的轨迹,咱们将这条轨迹的 GPS 点存储在同一条数据记录中,并采纳 GZip 压缩形式,这样可能大大减少数据的条目数和占用空间,如图 7 所示。通过咱们的试验,采纳 JUST 的轨迹存储办法与原来传统的非关系型数据库的存储办法相比,磁盘空间放大至 1 /8。更小的存储空间不仅节约磁盘空间,在无限的网络带宽下还减速了查问效率。好比一扇不大的门,对于瘦子们来说,一次只能一个人穿过,而对于胖子来说,能够容许两个人同时通过。

▲图 7 JUST 中轨迹数据存储形式

咱们还提出了更为准确形容轨迹形态的办法。如图 8 所示。传统的形容轨迹形态的办法是应用一个矩形框,该矩形框很大空间都与轨迹地位无关。因而咱们提出了采纳多个小格子来形容轨迹形态的办法。更准确的轨迹形态形容容许咱们设计出了更好的过滤办法,更进一步的进步了查问效率。

▲图 8 准确形容轨迹形态

正是先进的索引办法和存储办法,使得 JUST 的计算效率有了微小的晋升。其中,存储和索引效率相较于原生 HBase 晋升超过 7 倍,查问效率绝对于其余时空查问框架有了上 100 倍的晋升,如图 9 所示。目前相干钻研工作申请了多项国家专利,相干论文也已被国内顶尖会议 ICDE 2020 接管,受到了国内同行的认可。(TrajMesa: A Distributed NoSQL Storage Engine for Big Trajectory Data.ICDE 2020)

▲图 9 性能比照

在实现高效率的同时,JUST 平台同样也具备“易用性”的特点。通过为用户提供 JUST SQL 模块,以上所有的操作都能够通过 SQL 语句简略实现。只有相熟任何一种关系型数据库,相熟 SQL 语句,简直可能以零学习老本地玩转 JUST。

此外,咱们还为 AI 算法工程师量身定做了一套 Notebook,所有的数据处理和模型训练,都能够在 JUST Notebook 上一站式进行,与此同时,还预置了丰盛的开箱即用的数据预处理、数据分析、特征提取办法,用户能够随便进行组合。

目前,除了城市实时人流监控预测零碎我的项目,JUST 还实现了多个我的项目的交付,包含:雄安新区块数据平台、广汉国家农业产业园、南通市域治理现代化我的项目等,如图 10 所示。

▲图 10 更多的我的项目应用了 JUST

JUST 曾经推出了公测版本,以 PaaS 的模式对外提供服务,让更多的人可能享受到 JUST 的高扩展性、高效率以及强易用性。JUST 的产品主页和产品门户别离如图 11 和图 12 所示。

【产品主页】

http://just.urban-computing.cn/

【产品门户】

http://portal-just.urban-comp…

▲图 11 JUST 产品主页

▲图 12 JUST 产品门户

传统 GIS 厂商的时空大数据管理平台能够了解为一个数据集市,提供各类空间数据的可视化服务,查问能力仅局限于空间查问,并不是真正意义上的时空数据管理平台,能够了解为大数据量空间数据治理平台。

相较于业内同类型的其余时空数据管理平台,JUST 提供了丰盛的时空数据模型,可能全面笼罩所有时空数据;同时设计了高效的索引存储管理办法,为每一种数据类型封装了丰盛的开箱即用的解决剖析函数;此外,JUST 还提供了残缺的 SQL 引擎,所有的操作都能够简略的应用 SQL 语句实现;为 AI 算法工程师筹备了齐备的 Notebook,不便一站式地模型构建。

总之,JUST 容许用户可能更不便、更快捷地治理更大规模的时空数据。

【相干论文】

  • JUST: JD Urban Spatio-Temporal Data Engine. (ICDE 2020)
  • TrajMesa: A Distributed NoSQL Storage Engine for Big Trajectory Data (Short Paper). (ICDE 2020)

关注【京东科技开发者】公众号并回复【智能城市】

收费下载上述论文 PDF!

举荐浏览

  • JUST 技术:晋升基于 GPS 轨迹的路网揣测精确度

欢送点击【 京东科技 】,理解开发者社区

更多精彩技术实际与独家干货解析

欢送关注【京东科技开发者】公众号

正文完
 0