关于python:14python爬虫之JSON操作

结构化的数据是最好解决，个别都是相似JSON格局的字符串，间接解析JSON数据，提取JSON的关键字段即可。

JSON

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格局；实用于进行数据交互的场景，比方网站前台与后盾之间的数据交互

Python 3.x中自带了JSON模块，间接import json就能够应用了。

Json模块提供了四个性能：dumps、dump、loads、load,用于字符串和 python数据类型间进行转换

Python操作json的规范api库参考https://docs.python.org/zh-cn...://tool.oschina.net/codeformat/json

1. json.loads()

实现：json字符串转化 python的类型，返回一个python的类型

从json到python的类型转化对照如下：

import jsona="[1,2,3,4]"b='{"k1":1,"k2":2}'#当字符串为字典时{}里面必须是''单引号{}外面必须是""双引号print json.loads(a) [1, 2, 3, 4]print json.loads(b) {'k2': 2, 'k1': 1}

案例

获取豆瓣电影热门

import urllib.parseimport urllib.requestimport jsonurl='https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0'# 豆瓣最新 热门herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://movie.douban.com','Connection':'keep-alive'}# 申请头信息req = urllib.request.Request(url,headers=herders)# 设置申请头response=urllib.request.urlopen(req)# 发动申请，失去response响应hjson = json.loads(response.read())# json转换为字典# 遍历字典中的电影，item是每条电影信息for item in hjson["subjects"]:    print(item["rate"],item["title"])    # 打印每条电影的评分与题目

输入

6.9 神弃之地7.2 从邪恶中援救我6.1 福尔摩斯小姐：失踪的侯爵6.2 夺命隧道6.3 OK老板娘7.3 我想完结这所有8.3 鸣鸟不飞：乌云密布7.7 1/2的魔法7.8 树上有个好中央6.3 妙学生5.1 釜山行2：半岛...

2. json.dumps()

实现python类型转化为json字符串，返回一个str对象

从python原始类型向json类型的转化对照如下：

import jsona = [1,2,3,4]b ={"k1":1,"k2":2}c = (1,2,3,4)json.dumps(a)'[1, 2, 3, 4]'json.dumps(b)'{"k2": 2, "k1": 1}'json.dumps(c)'[1, 2, 3, 4]'

json.dumps 中文编码问题

如果Python Dict字典含有中文，json.dumps 序列化时对中文默认应用的ascii编码

import chardetimport jsonb = {"name":"中国"}json.dumps(b)'{"name": "\\u4e2d\\u56fd"}'print json.dumps(b){"name": "\u4e2d\u56fd"}chardet.detect(json.dumps(b)){'confidence': 1.0, 'encoding': 'ascii'}

'中国' 中的ascii 字符码，而不是真正的中文。

想输入真正的中文须要指定ensure_ascii=False

json.dumps(b,ensure_ascii=False)'{"name": "\xe6\x88\x91"}'print json.dumps(b,ensure_ascii=False) {"name": "我"}chardet.detect(json.dumps(b,ensure_ascii=False)){'confidence': 0.7525, 'encoding': 'utf-8'}

3. json.dump()

import jsona = [1,2,3,4]json.dump(a,open("digital.json","w"))b = {"name":"我"}json.dump(b,open("name.json","w"),ensure_ascii=False)json.dump(b,open("name2.json","w"),ensure_ascii=True)

4. json.load()

读取文件中json模式的字符串元素转化成python类型

import jsonnumber = json.load(open("digital.json"))print( number)b = json.load(open("name.json"))print( b)b.keys()print b['name']

</pre>

实战我的项目

获取 lagou 城市表信息

import urllib.parseimport urllib.requestimport jsonurl='http://www.lagou.com/lbs/getAllCitySearchLabels.json?'# 拉钩城市列表herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'http://www.lagou.com','Connection':'keep-alive'}# 申请头信息req = urllib.request.Request(url,headers=herders)# 设置申请头response=urllib.request.urlopen(req)# 发动申请，失去response响应hjson = json.loads(response.read())# print(hjson)# json转换为字典# 遍历字典中A结尾的城市列表for item in hjson["content"]["data"]["allCitySearchLabels"]["A"]:    print(item["name"],item["code"])    # 打印A 结尾的城市革除与代码

输入：

安阳 171500000安庆 131800000鞍山 081600000安顺 240400000健康 270400000阿克苏 311800000阿拉善盟 070300000阿勒泰 310400000阿坝藏族羌族自治州 230700000

JSONPath

JSON 信息抽取类库，从JSON文档中抽取指定信息的工具

JSONPath与Xpath区别

JsonPath 对于 JSON 来说，相当于 XPATH 对于XML。

下载地址：

https://pypi.python.org/pypi/...

装置办法：pip install jsonpath

参考文档

XPath	JSONPath	Result
`/store/book/author`	`$.store.book[].author`	获取所有store中的book的author
`//author`	`$..author`	获取所有 authors
`/store/`	`$.store.`	all things in store, which are some books and a red bicycle.
`/store//price`	`$.store..price`	获取store中所有的price

`//book[3]`	`$..book[2]`	第二个 book
`//book[last()]`	`$..book[(@.length-1)]``$..book[-1:]`	获取到最初一个book
`//book[position()<3]`	`$..book[0,1]``$..book[:2]`	获取到前两个 books
`//book[isbn]`	`$..book[?(@.isbn)]`	获取到有isbn属性的book
`//book[price<10]`	`$..book[?(@.price<10)]`	获取所有的book ，price小于10
`//`	`$..*`	匹配任意元素

案例

还是以 http://www.lagou.com/lbs/getA... 为例，获取所有城市

import urllib.requestimport jsonimport jsonpathurl='http://www.lagou.com/lbs/getAllCitySearchLabels.json'# 拉钩城市列表herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'http://www.lagou.com','Connection':'keep-alive'}# 申请头信息req = urllib.request.Request(url,headers=herders)# 设置申请头response=urllib.request.urlopen(req)# 发动申请，失去response响应hjson = json.loads(response.read())# 将字符加载为json对象citylist = jsonpath.jsonpath(hjson,'$..name')# 获取到所有的 城市名称# print (type(citylist)) # <class 'list'>content = json.dumps(citylist,ensure_ascii=False)# 列表转换为json 字符串 ，不应用ascii编码，fp = open('city.json','w')# 关上文件fp.write(content)# 写入文件fp.close()# 敞开文件

输入文件为

XML

xmltodict模块让应用XML感觉跟操作JSON一样

Python操作XML的第三方库参考：

https://github.com/martinblec...

模块装置：

pip install xmltodict

import xmltodictbookdict = xmltodict.parse("""        <bookstore>            <book>                  <title lang="eng">Harry Potter</title>                  <price>29.99</price>            </book>            <book>                  <title lang="eng">Learning XML</title>                  <price>39.95</price>            </book>    </bookstore>    """)print (bookdict.keys())[u'bookstore']print(json.dumps(bookdict,indent=4))

输入后果：

{    "bookstore": {        "book": [            {                "title": {                    "@lang": "eng",                     "#text": "Harry Potter"                },                 "price": "29.99"            },             {                "title": {                    "@lang": "eng",                     "#text": "Learning XML"                },                 "price": "39.95"            }        ]    }}

单词表

"""单词表 content         内容loads           加载dumps           输入 （倾倒）citylist        城市列表JSON(JavaScript Object Notation)( JS 对象对象表述数据)path            门路request         申请headers         头信息response        响应read            读取content         内容"""

数据提取总结

HTML、XML

  XPath  CSS选择器  正则表达式

JSON

JSONPath转化成Python类型进行操作（json类）

转化成Python类型（xmltodict）  XPath  CSS选择器  正则表达式

其余（js、文本、电话号码、邮箱地址）

正则表达式

在线练习：https://www.520mg.com/it