Geohash精度和原理

6次阅读

共计 4273 个字符,预计需要花费 11 分钟才能阅读完成。

Geohash 精度和原理

转自:https://www.cnblogs.com/feiquan/p/11380461.html

 geohash 基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码,这种方式简单粗暴,可以满足对小规模的数据进行经纬度的检索

1、经纬度常识

  • 经线是纵的,经度是横的,用于表示不同的经线,纬线是横的,纬度是纵的,用于表示不同的纬线,如下图
  •    
  • 纬线:地球仪上的横线,lat,赤道是最大的纬线,从赤道开始分为北纬和南纬,都是 0 -90°,纬线是角度数值,并不是米;
  • 经线:地球仪上的竖线,lng,子午线为 0°,分为西经和东经,都是 0 -180°,经线也是角度数值;
  • 经纬线和米的换算:经度或者纬度 0.00001 度,约等于 1 米,这个在 GPS 测算距离的时候可以体会到,GPS 只要精确到小数点后五位,就是 10 米范围内的精度
  • 经度 0 度的位置为本初子午线,在 180 度的位置转为西经,数字由大到小依次经过北美洲到达西欧. 纬度 0 度的位置为赤道
  • 为了便于理解,将地球看成一个基于经纬度线的坐标系。纬线就是平行于赤道平面的那些平面的周线,经线就是连接南北两极的大圆线的半圆弧。纬度分为北纬(正),南纬(负),赤道所在的纬度值为 0。经度以本初子午线界(本初子午线经度为 0),分为东经(正),西经(负)。故纬度范围可表示为[-90o, 0o),(0o, 90o],经度范围可表示为[-180o, 0o),(0o, 180o]
  • 将经度和纬度看成二维坐标系中的两个纬度,横轴表示经度,纵轴表示纬度, 如上图
2、认识 geohash

  • GeoHash 将二维的经纬度转换成字符串,比如下图展示了北京 9 个区域的 GeoHash 字符串,分别是 WX4ER,WX4G2、WX4G3 等等,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的 GeoHash 字符串,这样既可以保护隐私(只表示大概区域位置而不是具体的点),又比较容易做缓存。
  • 不同的编码长度,表示不同的范围区间,字符串越长,表示的范围越精确
  • 字符串相似的表示距离相近(特殊情况后文阐述),这样可以利用字符串的前缀匹配来查询附近的 POI 信息。如下两个图所示,一个在城区,一个在郊区,城区的 GeoHash 字符串之间比较相似,郊区的字符串之间也比较相似,而城区和郊区的 GeoHash 字符串相似程度要低些
  • 总结:GeoHash 就是一种将经纬度转换成字符串的方法,并且使得在大部分情况下,字符串前缀匹配越多的距离越近
3、geohash 算法

    以经纬度值:(116.389550,39.928167)进行算法说明,对纬度 39.928167 进行逼近编码 (地球纬度区间是[-90,90])

  1. 区间 [-90,90] 进行二分为[-90,0),[0,90],称为左右区间,可以确定 39.928167 属于右区间[0,90],给标记为 1
  2. 接着将区间 [0,90] 进行二分为 [0,45),[45,90],可以确定 39.928167 属于左区间 [0,45),给标记为 0
  3. 递归上述过程 39.928167 总是属于某个区间 [a,b]。随着每次迭代区间[a,b] 总在缩小,并越来越逼近 39.928167
  4. 如果给定的纬度 x(39.928167)属于左区间,则记录 0,如果属于右区间则记录 1,序列的长度跟给定的区间划分次数有关,如下图
  • 同理,地球经度区间是[-180,180],可以对经度 116.389550 进行编码
  • 通过上述计算,纬度产生的编码为 1 1 0 1 0 0 1 0 1 1 0 0 0 1 0,经度产生的编码为 1 0 1 1 1 0 0 0 1 1 0 0 0 1 1
  • 合并:偶数位放经度,奇数位放纬度,把 2 串编码组合生成新串如下图:
  • 首先将 11100 11101 00100 01111 0000  01101 转成十进制,对应着 28、29、4、15,0,13 十进制对应的 base32 编码就是 wx4g0e, 如下图
  • Ø同理,将编码转换成经纬度的解码算法与之相反
 4、geohash 原理

  • Geohash 其实就是将整个地图或者某个分割所得的区域进行一次划分,由于采用的是 base32 编码方式,即 Geohash 中的每一个字母或者数字(如 wx4g0e 中的 w)都是由 5bits 组成(2^5 = 32,base32),这 5bits 可以有 32 中不同的组合(0~31),这样我们可以将整个地图区域分为 32 个区域,通过 00000 ~ 11111 来标识这 32 个区域。第一次对地图划分后的情况如下图所示(每个区域中的编号对应于该区域所对应的编码):
  • Geohash 的 0、1 串序列是经度 0、1 序列和纬度 0、1 序列中的数字交替进行排列的,偶数位对应的序列为经度序列,奇数位对应的序列为纬度序列,在进行第一次划分时,Geohash0、1 序列中的前 5 个 bits(11100),那么这 5bits 中有 3bits 是表示经度,2bits 表示纬度,所以第一次划分时,是将经度划分成 8 个区段(2^3 = 8),将纬度划分为 4 个区段(2^2 = 4),这样就形成了 32 个区域。如下图
  • 同理,可以按照第一次划分所采用的方式对第一次划分所得的 32 个区域各自再次划分. 

对照表


5、GeoHash 缺陷
=============

        上文讲了 GeoHash 的计算步骤,仅仅说明是什么而没有说明为什么?为什么分别给经度和维度编码?为什么需要将经纬度两串编码交叉组合成一串编码?本节试图回答这一问题。如图所示,我们将二进制编码的结果填写到空间中,当将空间划分为四块时候,编码的顺序分别是左下角 00,左上角 01,右下脚 10,右上角 11,也就是类似于 Z 的曲线,当我们递归的将各个块分解成更小的子块时,编码的顺序是自相似的(分形),每一个子快也形成 Z 曲线,这种类型的曲线被称为 Peano 空间填充曲线。这种类型的空间填充曲线的优点是将二维空间转换成一维曲线(事实上是分形维),对大部分而言,编码相似的距离也相近,但 Peano 空间填充曲线最大的缺点就是突变性,有些编码相邻但距离却相差很远,比如 0111 与 1000,编码是相邻的,但距离相差很大。![](https://upload-images.jianshu.io/upload_images/5477321-af226ebcefbc1e62.png)

        除 Peano 空间填充曲线外,还有很多空间填充曲线,如图所示,其中效果公认较好是 Hilbert 空间填充曲线,相较于 Peano 曲线而言,Hilbert 曲线没有较大的突变。但是由于 Peano 曲线实现更加简单,在使用的时候配合一定的解决手段,可以很好的满足大部分需求,因此 TD 内部 Geohash 算法采用的是 Peano 空间填充曲线。![](https://upload-images.jianshu.io/upload_images/5477321-1ded33fe83685494.png)
6、使用注意点
========

    a. 由于 GeoHash 是将区域划分为一个个规则矩形,并对每个矩形进行编码,这样在查询附近 POI 信息时会导致以下问题,比如红色的点是我们的位置,绿色的两个点分别是附近的两个餐馆,但是在查询的时候会发现距离较远餐馆的 GeoHash 编码与我们一样(因为在同一个 GeoHash 区域块上),而较近餐馆的 GeoHash 编码与我们不一致。这个问题往往产生在边界处。![](https://upload-images.jianshu.io/upload_images/5477321-c3d6071e87efdcf8.png)

        解决的思路很简单,我们查询时,除了使用定位点的 GeoHash 编码进行匹配外,还使用周围 8 个区域的 GeoHash 编码,这样可以避免这个问题。b. 我们已经知道现有的 GeoHash 算法使用的是 Peano 空间填充曲线,这种曲线会产生突变,造成了编码虽然相似但距离可能相差很大的问题,因此在查询附近餐馆时候,首先筛选 GeoHash 编码相似的 POI 点,然后进行实际距离计算。c. GeoHash Base32 编码长度与精度。可以看出,当 geohash base32 编码长度为 8 时,精度在 19 米左右,而当编码长度为 9 时,精度在 2 米左右,编码长度需要根据数据情况进行选择。![](https://upload-images.jianshu.io/upload_images/5477321-8923c0fda8769e06.png)

7、~~~~ 计算围栏内所有 Geohash
=================

        理解了 geohash 算法的基本原理之后,本节将介绍一个实际应用中常见的场景:计算围栏范围内所有的 Geohash 编码。该场景封装为函数可以表示如下:输入组成围栏的点经纬度坐标集合和指定的 geohash 长度,输出一组 geohash 编码。public static Set getHashByFence(List points, int length)

        具体算法步骤如下:

1\. 输入围栏点坐标集合 List points 和指定的 geohash 长度 length

2\. 计算围栏的外包矩形的左上角和右下角坐标 lat\_min、lat\_max、lng\_min、lng\_max

3\. 根据 lat\_min、lat\_max、lng\_min、lng\_max,计算外包矩形对角定点的距离 d

4\. 以外包矩形中心点为圆心,以 d / 2 为半径做一个圆,计算圆覆盖范围内的 geohash

    4.1 获取圆的外包矩形左上角和右下角定点坐标经纬度,存储到 double\[\] locs

    4.2 根据 geohash 字符长度计算该长度 geohash 编码对应的经纬度间隔(latA,lngA)4.3 根据 latA 和 lngA,计算出 locs 组成的矩形的左上角和右下角定点的经纬度,在 geohash 划分的网格的索引(也就是第几个), 分别记为 lat\_min,lat\_max,lng\_min,lng\_max

    4.4 计算 lat\_min,lat\_max,lng\_min,lng\_max 对应范围内左右 geohash 的二进制编码,然后将经纬度二进制编码 uncode 为 geohash 字符编码,保存为 Set sets

5\. 剔除 sets 中 geohash 编码对应矩形的中心点不在 points 围栏范围内的 geohash,得到最终的 geohash 结果集
正文完
 0