置信很多做自然语言解决、常识图谱、数据分析的小伙伴们都须要一份 中国行政区划数据词典。
行政区划分为 省、市、县、乡(街道)、村(社区)等五级,如下表所示:
-
城市
{"loc_name": ["北京市"], "loc_code": "110000000000"} {"loc_name": ["北京市", "市辖区"], "loc_code": "110100000000"} {"loc_name": ["北京市", "市辖区", "东城区"], "loc_code": "110101000000"} {"loc_name": ["北京市", "市辖区", "东城区", "东华门街道"], "loc_code": "110101001000"} {"loc_name": ["北京市", "市辖区", "东城区", "东华门街道", "多福巷社区居委会"], "loc_code": "110101001001"} {"loc_name": ["北京市", "市辖区", "东城区", "东华门街道", "银闸社区居委会"], "loc_code": "110101001002"} {"loc_name": ["北京市", "市辖区", "东城区", "东华门街道", "东厂社区居委会"], "loc_code": "110101001005"} {"loc_name": ["北京市", "市辖区", "东城区", "东华门街道", "智德社区居委会"], "loc_code": "110101001006"} {"loc_name": ["北京市", "市辖区", "东城区", "东华门街道", "南池子社区居委会"], "loc_code": "110101001007"}
-
农村
{"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "方戴村委会"], "loc_code": "330206005207"} {"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "书院村委会"], "loc_code": "330206005208"} {"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "陈华村委会"], "loc_code": "330206005209"} {"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "山前村委会"], "loc_code": "330206005210"} {"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "上傅村委会"], "loc_code": "330206005211"} {"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "水俞村委会"], "loc_code": "330206005214"} {"loc_name": ["浙江省", "宁波市", "北仑区", "霞浦街道", "河西村委会"], "loc_code": "330206005215"}
-
少数民族地区
{"loc_name": ["内蒙古自治区", "包头市", "土默特右旗", "萨拉齐镇", "上茅庵村委会"], "loc_code": "150221104211"} {"loc_name": ["内蒙古自治区", "包头市", "土默特右旗", "萨拉齐镇", "王光洁村委会"], "loc_code": "150221104212"} {"loc_name": ["内蒙古自治区", "包头市", "土默特右旗", "萨拉齐镇", "大袄兑村委会"], "loc_code": "150221104213"} {"loc_name": ["内蒙古自治区", "包头市", "土默特右旗", "萨拉齐镇", "公盖营村委会"], "loc_code": "150221104214"} {"loc_name": ["内蒙古自治区", "包头市", "土默特右旗", "萨拉齐镇", "王庆营村委会"], "loc_code": "150221104215"} {"loc_name": ["内蒙古自治区", "包头市", "土默特右旗", "萨拉齐镇", "小袄兑村委会"], "loc_code": "150221104216"}
其实,国家倒退变动很快,随着人口迁徙、老龄化、产业结构变迁等因素影响,很多市县改区、村镇合并、隐没等等,每年行政区划都会进行变更。国务院每年批准的行政区划调整批文多达十几甚至几十个。
因而,很多互联网上公开的行政区划词典往往存在一些过期、老旧。
最近粗疏整顿了 2022 年度 最新的的中国行政区划数据集 ,数据来源于 国家统计局整顿的最新行政区划表。数据集以 json 格局给出。有须要的小伙伴能够关注上面公众号自取。
步骤如下:
- 1 关注公众号 JioNLP
- 2 回复【下载】获取下载链接
- 3 该数据集是收费的
如何在程序中加载
如果有编程教训,能够用 python 进行操作
-
1 装置 jionlp 工具包
$ pip install jionlp
-
2 编写以下代码执行
import jionlp as jio loc_list = jio.read_file_by_line(/path/to/loc_list.txt) # 解压后替换为下载门路
数据将定期更新,将来也会依据国务院的行政区划调整进行从新抓取。
我曾经把数据集公开出来,能够扫码关注 公众号 JioNLP,回复 下载 获取。
JioNLP 是一个专一开掘并剖析互联网数据的公众号,来看看这里有没有你想要的数据吧。
本文由 mdnice 多平台公布