真实感受一下县比省大不包邮省市区乡镇多级数据重装上阵

共计 2774 个字符，预计需要花费 7 分钟才能阅读完成。

以前采集的旧版省市区三级或四级城市数据总是觉得怪怪的，经过多方探讨，终于下定决心进行了一次重大更新，发布了这个重（chong）装版。除了省市区乡镇数据外，坐标和边界范围、还有拼音都是有的。
GitHub: https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov
在线预览：多级联动测试和预览、转换成 JSON

坐标边界数据全部来自高德地图接口（GCJ-02 坐标系），几个地图里面质量算是最好的。保存为 csv 格式，导入 SQL Server 也是很方便的，先睹为快（大到不包邮????）：

从一幅中国地图里面去看，那种大到不包邮地方可能看不出什么太大的感觉；没有对比就没有伤害，单独把最大的县抠出来对比一下就有感觉了，???? 看左边那一块纯色????

这些坐标和边界数据使用 js 代码采集的，得到的 csv 文件有 130M+，压缩成 7z 文件后有 13M 大小，采集速度很快，省市区三级数据大概 3 分钟就采集完成了。目前 GitHub 库里面的省市区三级和高德地图的城市蛮匹配，除了台湾的城市没有边界外，其他城市均有匹配的数据。

采集源码见此目录：https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/tree/master/2019/ 坐标和边界

另外贴一张图片乐呵乐呵：

以前只从统计局获取数据，数据源过于单一，后来合并了民政部数据，还是感觉数据不太好使。
很多人提醒只用民政部的数据会比用统计局的更好；甚至有的会从很多数据源获取城市数据，唯独不要统计局的。
研究发现高德地图行政区域、腾讯地图行政区划，这些地图都有开放接口提供数据，并且数据开起了也不错。
强迫症又要犯了。

综合分析了一下统计局、民政部、高德地图行政区域、腾讯地图行政区划，并且结合各大网站的城市选择数据，如：淘宝、QQ、58 这些有城市选择的，发现统计局的数据主要问题出现在以下两点：

数据缺失，有些确实是没有，有些是因为数据没有更新导致的滞后，只能靠自己去补全。
包含了大约 160 来个开发区、经济区、高新区、国家级新区，这种区划应该算专门的区域，一般由多个城市的区域组成，在区级内算是重复的区域，因此需要剔除，但剔除后这些区域下面的镇级需要划分到实际的归属城市下面，这就很困难了，因为量太大了，一个个去查归属地几乎不可能。

围绕着这主要两点，从多个数据源里采集数据，然后上人工 + 智能（人工多些），问题才能够解决。为什么要这么麻烦？因为没有找到特别优秀的数据源，其他各大平台、网站的数据在感官上显得都不够完美，综合一下舒畅多了。

采集源码见此目录（其中 1 - 3 打头的 js 文件）：https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/tree/master/2019

id 编号和国家统计局的编号基本一致，方便以后更新，有很多网站接口数据中城市编号是和这个基本是一致的，包括民政部、腾讯地图和高德地图的城市数据这套编号都是大部分通用的。
东莞 、 中山 、 儋州 等不设区的直筒子市没有第三级区级，自动添加同名的一级作为区级，以保证整个数据结构的一致性，添加的城区编号以上级的 ID 结尾加两个 0 作为新 ID，此结构 ID 兼容性还不错，比如：东莞（4419）下级只有一个区东莞（441900）。
省直辖县级市（河南济源、湖北潜江、海南五指山、新疆昆玉等）根据编号来看本来只能放到区级，但为了便于用户选择，所有直辖市自动添加一个同名的市级，比如：湖北 - 直辖市 - 仙桃 -* 镇 调整后为 湖北 - 仙桃 - 仙桃 -* 镇，新添加数据的编号规则和第二条规则相同。
如果市、区没有下级，自动添加同名的一个城镇作为下级，编号规则和上一条规则相同，以保证数据层次的一致性（任何一个数据都能满足省市区镇 4 级结构，没有孤立的）；比如：福建 - 泉州 - 金门 没有镇，调整后为 福建 - 泉州 - 金门 - 金门；另外从民政部等数据源中补全的新增城市也会缺失下级，照此规则自动补齐。
台湾数据只有省市区三级没有镇级，因此镇级通过前面几条规则自动补齐；香港、澳门数据源有两级，当做直筒子市来处理，比如把香港当做东莞，从面积和人口来看还算合理，因此港澳数据中省市区三级是完全相同的，第四级镇级才有城市数据，如：香港 - 香港 - 香港 - 湾仔区。
地区名字是直接去掉常见的后缀进行精简的，如直接清除结尾的 市 | 区 | 县 | 街道办事处 |XX 族自治 X ，数量较少并且移除会导致部分名字产生歧义的后缀并未精简。
省市区前三级数据的合并：统计局采集过来的数据会先和民政部的数据交叉对比后进行合并；由于统计局的数据明显的滞后，民政部内新添加的市、区将不会有镇级（自动补齐同名镇级）；如果民政部数据存在明文撤销的市、区，那么合并的时候会删除统计局对应的数据，如：山东 - 莱芜市 于 2019-01 撤销，并在 济南市 新加 莱芜区 、 钢城区 ；如果统计局中的数据在民政部数据内不存在，将原样保留。高德地图行政区域会和腾讯地图行政区划数据进行交叉对比，然后择优选取需要的数据。最后(统计局 + 民政部) 和(高德 + 腾讯的数据)的前三级数据进行交叉融合，得到的【省市区】≈【统计局的数据】–【160 来个开发区、经济区、高新区、国家级新区】–【撤销城市】+【新设城市】+【港澳台】。
第四级镇级主要采用腾讯地图行政区划数据，综合高德和统计局的数据，和统计局的数据差异在 3000 个左右，占比 7.5%(3000/40000)，得到的【镇级】≈【腾讯地图行政区划数据】。

库里面提供了一个在线测试的页面，提供 3 级或 4 级数据的多级选择测试，并且提供数据格式转换导出，方便转换成需要的格式。

城市数据、坐标和边界均可导入数据内使用。
城市数据因为全部有拼音，因此在选择界面显示时很容易分组和显示拼音前缀，省市区 3 级拼音准确度奇高，第 4 级稍微差点。
边界坐标可用来根据用户坐标解析出城市信息，除台湾外全部城市均能覆盖到。
库里面提供了采集源码，采集方式为浏览器控制台内执行 js 采集，全部自己采集也很快速，大约 30 分钟以内就搞定了；当然直接下载也是可以的。

目前来看，新版的数据前 3 级看起来和其他大网站的区别不会太大了，并且比他们新，主要是丢弃了那 160 多个开发区、经济区的功劳。第 4 级由于直接采用的腾讯地图的数据，对照统计局的来看，区别不大，其他网站没有对比，蛮很少有提供这么深层级的，并且数据量太大也不好怎么对比出一个可信的数据。

目前更新主要看民政部，民政部有新数据放出后，会去对比一下数据是否有变化，如果没有变化就会全量更新。不过对已在使用的数据库内的老数据的更新，目前并没有什么简洁的解决方案，因为这种数据在数据库里面更新时一件很麻烦的事情。

== 完 ==

城市的坐标和边界范围

新版城市数据采集

原何重装

技能要点

数据特性

数据应用和更新

综合应用

更新计划

Just My Socks（注册教程内含优惠码）