共计 3877 个字符,预计需要花费 10 分钟才能阅读完成。
本文首发于 Nebula Graph Community 公众号
本文次要介绍了天文空间数据(Geospatial Data)以及它在 Nebula Graph 中的具体实际。
Geospatial Data 在 Nebula Graph 中的实际
什么是 Geospatial Data
天文空间数据(Geospatial Data)是蕴含简略天文空间因素信息的数据,比方点(point)、线(linestring)、多边形(polygon),或是其余更简单的形态。
Nebula Graph 在 2.6 版本中引入了对 Geospatial Data 残缺的反对,包含天文空间数据的存储、计算,以及索引。Nebula Graph 目前反对 Geography 类型的天文空间数据,Geography 类型是建模在地球空间坐标系上由经纬度坐标对示意的地理位置信息。
Geospatial Data — 天文空间数据应用
创立 Schema
这里仅以 Tag 为例,当然 Edgetype 上同样能够将 Geography 类型作为属性列。
Nebula 目前反对点、线、多边形三种空间数据类型。上面介绍一下如何如何创立 Geography 类型属性以及如何插入天文空间数据到 Nebula 中。
CREATE TAG any_shape(geo geography);
CREATE TAG only_point(geo geography(point));
CREATE TAG only_linestring(geo geography(linestring));
CREATE TAG only_polygon(geo geography(polygon));
当 geography
属性前面没有指定具体的天文形态信息时,代表该列能够存储任意天文形态的数据;当指定形态类型时,则代表只能存储该形态的天文数据,比方 geography(point)
,就代表该列只能存储 point 形态的地理位置信息。
插入数据
向 Tag any_shape
的 geo
列插入数据:
INSERT VERTEX any_shape(geo) VALUES "101":(ST_GeogFromText("POINT(120.12 30.16)"));
INSERT VERTEX any_shape(geo) VALUES "102":(ST_GeogFromText("LINESTRING(3 8, 4.7 73.23)"));
INSERT VERTEX any_shape(geo) VALUES "103":(ST_GeogFromText("POLYGON((75.3 45.4, 112.5 53.6, 122.7 25.5, 93.9 28.6, 75.3 45.4))"));
向 Tag only_point
的 geo
列插入数据:
INSERT VERTEX only_point(geo) VALUES "201":(ST_Point(120.12,30.16)"));;
向 Tag only_linestring
的 geo
插入数据:
INSERT VERTEX only_linestring(geo) VALUES "302":(ST_GeogFromText("LINESTRING(3 8, 4.7 73.23)"));
向 Tag only_polygon
的 geo
列插入数据:
INSERT VERTEX only_polygon(geo) VALUES "403":(ST_GeogFromText("POLYGON((75.3 45.4, 112.5 53.6, 122.7 25.5, 93.9 28.6, 75.3 45.4))"));
当插入天文数据形态不合乎该列天文形态要求时,会报错无奈插入:
(root@nebula) [geo]> INSERT VERTEX only_polygon(geo) VALUES "404":(ST_GeogFromText("POINT((75.3 45.4))"));
[ERROR (-1005)]: Wrong value type: ST_GeogFromText("POINT((75.3 45.4))")
咱们能够看到天文空间数据插入方法比拟奇异,和 int、string、bool 等根本类型的插入很不一样。
咱们以 ST_GeogFromText("POINT(120.12 30.16)")
为例,ST_GeogFromText 是一个地理位置信息解析函数,它承受一个 string 类型的 WKT(Well-Known Text)规范格局示意的地理位置数据:
POINT(120.12 30.16)
代表一个东经 120°12′,北纬 30°16′ 的地理位置点。ST_GeogFromText 函数会从 wkt 参数中解析并结构一个 geography 数据对象,而后 INSERT
语句会将其以 WKB(Well-Known Binary)规范存储在 Nebula 中。
Geospatial functions — 天文空间函数
Nebula 反对的天文空间函数能够分为以下几大类:
-
构造函数
- ST_Point(longitude, latitude),依据一对经纬度结构一个 geography point 对象
-
解析函数
- ST_GeogFromText(wkt_string),从 wkt 文本中解析 geography 对象
- ST_GeogFromWKB(wkb_string),从 wkb 文本中解析 geography 对象 # 尚未正式反对,因为 Nebula 还未反对二进制字符串
-
格局设置函数
- ST_AsText(geogrpahy),将 geogrpahy 对象以 wkt 文本格式输入
- ST_AsBinary(geography),将 geography 对象以 wkb 文本格式输入 # 尚未正式反对,因为 Nebula 还未反对二进制字符串
-
转换函数
- ST_Centroid(geography),计算 geography 对象的重心,重心是一个 geography point 对象
-
谓词函数
- ST_Intersects(geography_1, geography_2),判断两个 geography 对象是否相交
- ST_Covers(geography_1, geography_2),判断第一个 geography 对象是否齐全笼罩第二个
- ST_CoveredBy(geography_1, geography_2),ST_Covers 的反义词
- ST_DWithin(geography_1, geography_2, distance_in_meters),判断两个 geography 对象的最短距离是否小于给定间隔
-
度量函数
- ST_Distance(geography_1, geography_2),计算两个 geography 对象之间的间隔
这些函数接口遵循 OpenGIS Simple Feature Access 以及 ISO SQL/MM 规范,具体用法参见 Nebula 文档
Geospatial index — 天文空间索引
什么是天文空间索引?
天文空间索引用于基于空间谓词函数的的天文形态的疾速过滤,如:ST_Intersects、ST_Covers 等。
Nebula 应用 Google S2 库做空间索引。
S2 库将地球表面投影到一个外切的正方体上,而后对正方体的每一个正方形外表递归地进行 n 次四等,最初应用一条空间填充曲线 – 希尔伯特曲线去连贯这些小正方格子的核心。
当 n 无穷大时,这条希尔伯特曲线就简直填满了正方形。
S2 库应用的是 30 阶的希尔伯特曲线。
如下图, 是用希尔伯特曲线填充地地球表面的示意图:
能够看到,地球表面最终被这些希尔伯特曲线划分成了一个个单元格。对于地球表面的任意天文形态,比方一个城市、一条河流、一个人的地位咱们都能够用若干个这样的格子去齐全覆盖住这个天文形态。
每个格子都有一个惟一的 int64 的 CellID 来标识。因而,天文对象的空间索引就是构建齐全笼罩该天文形态的 S2 格子的汇合。
当构建天文空间对象的索引时,会结构一个齐全笼罩被索引对象的不同 S2 单元格的汇合。基于空间谓词函数的索引查问通过查找笼罩所查问对象的 S2 单元格的汇合与笼罩被索引对象的 S2 单元格之间的交加,来疾速过滤掉大量不相干的天文对象。
创立 geography 索引
CREATE TAG any_shape_geo_index on any_shape(geo)
对于形态为 point 的天文数据,能够用一个 level 为 30 的 S2 单元格来示意它,因而一个 point 对应一个索引条目;对于形态为 linestring 和 polygon 的天文数据,咱们应用多个不同 level 的 S2 单元格来笼罩,因而会对应多个索引条目;
空间索引会用来减速所有 geo 谓词的查找速度,比方对于如下语句
LOOKUP ON any_shape WHERE ST_Intersects(any_shape.geo, ST_GeogFromText("LINESTRING(3 8, 4.7 73.23)"));
当 any_shape 的 geo 列上没有空间索引时,该语句会先将 any_shape 的所有数据读到内存,而后用来计算是否和点 (3.0, 8.0) 相交,这个计算的开销个别是比拟低廉的。当 any_shape 的数据量较大时,计算开销将难以承受。
而当 any_shape 的 geo 列有空间索引时,该语句会首先用空间索引过滤掉绝大部分和该线相对不相交的数据,最终读到内存的还是会有局部可能相交的,因而还须要进行一次计算。这样空间索引就以很小的代价疾速过滤掉了大部分不可能相交的数据,最终进行准确过滤的只有少部分,极大的升高了计算开销。
交换图数据库技术?退出 Nebula 交换群请先填写下你的 Nebula 名片,Nebula 小助手会拉你进群~~