什么是爬虫?
实际来源于实践,做爬虫前必定要先理解相干的规定和原理,要晓得互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就 …
首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区两头,更常常的称为网页追赶者),是一种依照肯定的规定,主动地抓取万维网信息的程序或者脚本。一句话概括就是网上信息搬运工。
咱们再来看下爬虫应该遵循的规定:robots 协定是一种寄存于网站根目录下的 ASCII 编码的文本文件,它通常通知网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是能够被漫游器获取的。一句话概括就是通知你哪些货色能爬哪些不能爬。
理解了定义和规定,最初就是相熟爬虫的基本原理了,很简略,作为一名灵魂画手,我画个示意图给你看下就明确了。
(⊙o⊙)…难堪,鼠标写字咋这么丑,都不好意思说本人学过书法,好一个脸字打得呱呱响。
我的项目背景
实践局部差不多讲完了,有些小朋友预计要嫌我啰嗦了,那就不废话,间接讲实操局部。本次爬虫小我的项目是应敌人需要,爬取中国木材价格指数网中的红木价格数据,不便撰写红木钻研报告。网站长这样:
所需字段已用红框标记,数据量粗略看了下,1751 页共 5 万多条记录,如果你妄想复制粘贴的话,都不晓得粘到猴年马月了。而 python 只有运行几分钟就能把所有数据保留到你的 excel 里,是不是很难受?\
我的项目实战
工具:PyCharm
Python 版本:Python 3.7
浏览器:Chrome (举荐)
对于第一次写爬虫的敌人可能感觉很麻烦,咱不慌,由浅入深,先爬一页数据试试嘛。
一爬取一页
首先,咱们须要简略剖析下网页构造,鼠标右键点击查看,而后点击 Network,刷新网页,持续点击 Name 列表中的第一个。咱们发现此网站的申请形式为 GET,申请头 Headers 反映用户电脑系统、浏览器版本等信息。
接着,把爬虫所需的库都 pip 装置一下并导入,所有库的性能都有正文。
import csv #用于把爬取的数据存储为 csv 格局,能够 excel 间接关上的
import time #用于对申请加延时,爬取速度太快容易被反爬
from time import sleep #同上
import random #用于对延时设置随机数,尽量模仿人的行为
import requests #用于向网站发送申请
from lxml import etree #lxml 为第三方网页解析库,弱小且速度快
结构申请 url,增加头部信息 headers 即复制前文标记的 User-Agent,通过 requests.get 办法向服务器发送申请,返回 html 文本。增加 headers 目标在于通知服务器,你是实在的人在拜访其网站。如果你不增加 headers 间接访服务器,会在对方服务器显示 python 在拜访,那么,你很可能会被反爬,常见的反爬就是封你 ip。
url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'
headers = {'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",
}
response = requests.get(url, headers=headers, timeout=10)
html = response.text
print(html)
咱们运行下以上代码,看下成果:
看到这个,第一次接触爬虫的敌人可能会有点懵。
其实这就是网页源代码,咱们右键关上下源代码看一哈。
长这样:
而咱们须要提取的数据,就潜藏在这网页源代码中,咱们要用 lxml 库中的 etree 办法解析下网页。
parse = etree.HTML(html) #解析网页
解析完之后,就能够开开心心的提取咱们所须要的数据了。办法很多,比方 xpath、select、beautiful soup,还有最难的 re(正则表达式)。本文爬取的数据结构较为简单,就间接用 xpath 玩一下吧。
咱们发现,每一行数据对应源码里的一个 id=173200 的 tr,那就先把这些 tr 都提取下来。
all_tr = parse.xpath('//*[@id="173200"]')
有些小伙伴不会写 xpath。
那就找个简略方法,间接 copy 所需的 xpath。
所有 tr 都提取下来了,接下来就得顺次从 tr 外面提取具体字段了。比方提取商品名称字段,点开第一个 tr,选中商品,copy 其 xpath。其余字段同理。
以下要留神几点,tr={key1 : value1, key2 : value2} 是 python 的字典数据类型(你也能够依据本人趣味或须要存为列表或元组类型)。”.join 是指把获取到的列表转为字符串。./ 是指继承后面的 //*[@id=”173200″],strip() 示意对提取的数据进行简略的格局荡涤。
for tr in all_tr:
tr = {'name': ''.join(tr.xpath('./td[1]/text()')).strip(),'price':''.join(tr.xpath('./td[2]/text()')).strip(),
'unit': ''.join(tr.xpath('./td[3]/text()')).strip(),'supermaket':''.join(tr.xpath('./td[4]/text()')).strip(),
'time': ''.join(tr.xpath('./td[5]/text()')).strip()}
咱们打印一下 print(tr),看下成果。
此时,你的情绪兴许是这样的:
但还没完,数据有了,咱们还得保留 csv 格局到本地,这一步比较简单,间接贴代码。
with open('wood.csv', 'a', encoding='utf_8_sig', newline='') as fp:
# 'a' 为追加模式(增加)# utf_8_sig 格局导出 csv 不乱码
fieldnames = ['name', 'price', 'unit', 'supermaket', 'time']
writer = csv.DictWriter(fp, fieldnames)
writer.writerow(tr)
关上下刚生成的 wood.csv,长这样:
二爬取多页
别开心的太早,你还仅仅是爬了一页数据,人家复制粘贴都比你快。咱们的抱负可不在这,在诗和远方,哦不,是秒速爬海量数据。
那么,怎么能力爬取多页数据呢?没错,for 循环。
咱们再回过头来剖析下 url:
http://yz.yuzhuprice.com:8003…
咱们把外面的 page.curPage 改成 2 试试,如下:
你兴许发现玄机,只有扭转 page.curPage 就能够实现翻页。OK,那咱们间接在 url 后面加个循环就好啦。format(x) 是一种格式化字符串的函数,能够承受不限个数的参数。
for x in range(1,3):
url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage={}&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'.format(x)
至此,你只有扭转 range 想爬多少页就爬多少页,开不开心?意不意外?
三欠缺爬虫
如果仅仅依照以上代码爬虫,很有可能爬了十几页程序就崩了。我就屡次遇到过中途报错,导致爬虫失败的状况。好不容易写出的爬虫,怎么说崩就崩呢。
报错起因就很多了,玩爬虫的都晓得,调试 bug 是很麻烦的,须要一直试错。这个爬虫的次要 bug 是 TimeoutError。因而,咱们须要进一步欠缺代码。
首先,要将以上代码封装成函数,因为不必函数有以下毛病:
1、复杂度增大
2、组织构造不够清晰
3、可读性差
4、代码冗余
5、可扩展性差
其次,在可能呈现报错的中央都加上异样解决。即 try……except。
欠缺之后,截取局部,如下图。限于篇幅,我就不贴所有代码了,须要残缺代码的小伙伴关注公众号,后盾回复 wood 即可收费获取啦。
结 语
自此,红木数据爬虫代码写完啦,数据爬取下来后,就能够进行可视化的剖析了,比方能够看下每年不同市场红木的价格走势,同一市场不同红木的价格走势,或者还能够建设起红木的价格指数。可视化的内容后续我会重点解说,感兴趣的敌人能够注意下哦~
当然,此爬虫也还有很大的欠缺空间,比方退出多线程、scrapy 框架爬取速度会更快。另外,引入随机的 headers 和代理 ip,能够很好的躲避一些反爬,这些在很多绝对简单点的爬虫里是必须引入的内容。