关于python:保姆级教学手把手教你用Python爬虫附详细源码

什么是爬虫？

实际来源于实践，做爬虫前必定要先理解相干的规定和原理，要晓得互联网可不是法外之地，你一顿爬虫骚操作搞不好哪天就...

首先，咱先看下爬虫的定义：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区两头，更常常的称为网页追赶者），是一种依照肯定的规定，主动地抓取万维网信息的程序或者脚本。一句话概括就是网上信息搬运工。

咱们再来看下爬虫应该遵循的规定：robots协定是一种寄存于网站根目录下的ASCII编码的文本文件，它通常通知网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是能够被漫游器获取的。一句话概括就是通知你哪些货色能爬哪些不能爬。

理解了定义和规定，最初就是相熟爬虫的基本原理了，很简略，作为一名灵魂画手，我画个示意图给你看下就明确了。

(⊙o⊙)…难堪，鼠标写字咋这么丑，都不好意思说本人学过书法，好一个脸字打得呱呱响。

我的项目背景

实践局部差不多讲完了，有些小朋友预计要嫌我啰嗦了，那就不废话，间接讲实操局部。本次爬虫小我的项目是应敌人需要，爬取中国木材价格指数网中的红木价格数据，不便撰写红木钻研报告。网站长这样：

所需字段已用红框标记，数据量粗略看了下，1751页共5万多条记录，如果你妄想复制粘贴的话，都不晓得粘到猴年马月了。而python只有运行几分钟就能把所有数据保留到你的excel里，是不是很难受？\

我的项目实战

工具：PyCharm

Python版本：Python 3.7

浏览器：Chrome (举荐)

对于第一次写爬虫的敌人可能感觉很麻烦，咱不慌，由浅入深，先爬一页数据试试嘛。

一爬取一页

首先，咱们须要简略剖析下网页构造，鼠标右键点击查看，而后点击Network，刷新网页，持续点击Name列表中的第一个。咱们发现此网站的申请形式为GET，申请头Headers反映用户电脑系统、浏览器版本等信息。

接着，把爬虫所需的库都pip装置一下并导入，所有库的性能都有正文。

import csv  #用于把爬取的数据存储为csv格局，能够excel间接关上的import time  #用于对申请加延时，爬取速度太快容易被反爬from time import sleep #同上import random  #用于对延时设置随机数，尽量模仿人的行为import requests  #用于向网站发送申请from lxml import etree    #lxml为第三方网页解析库，弱小且速度快

结构申请url，增加头部信息headers即复制前文标记的User-Agent，通过requests.get办法向服务器发送申请，返回html文本。增加headers目标在于通知服务器，你是实在的人在拜访其网站。如果你不增加headers间接访服务器，会在对方服务器显示python在拜访，那么，你很可能会被反爬，常见的反爬就是封你ip。

url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'headers = {    'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",}response = requests.get(url, headers=headers, timeout=10)html = response.text  print(html)

咱们运行下以上代码，看下成果：

看到这个，第一次接触爬虫的敌人可能会有点懵。

其实这就是网页源代码，咱们右键关上下源代码看一哈。

长这样：

而咱们须要提取的数据，就潜藏在这网页源代码中，咱们要用lxml库中的etree办法解析下网页。

parse = etree.HTML(html)  #解析网页

解析完之后，就能够开开心心的提取咱们所须要的数据了。办法很多，比方xpath、select、beautiful soup，还有最难的re(正则表达式)。本文爬取的数据结构较为简单，就间接用xpath玩一下吧。

咱们发现，每一行数据对应源码里的一个id=173200的tr，那就先把这些tr都提取下来。

all_tr = parse.xpath('//*[@id="173200"]')

有些小伙伴不会写xpath。

那就找个简略方法，间接copy所需的xpath。

所有tr都提取下来了，接下来就得顺次从tr外面提取具体字段了。比方提取商品名称字段，点开第一个tr，选中商品，copy其xpath。其余字段同理。

以下要留神几点，tr={key1 : value1, key2 : value2 }是python的字典数据类型（你也能够依据本人趣味或须要存为列表或元组类型）。''.join是指把获取到的列表转为字符串。./是指继承后面的//*[@id="173200"]，strip()示意对提取的数据进行简略的格局荡涤。

for tr in all_tr:    tr = {        'name': ''.join(tr.xpath('./td[1]/text()')).strip(),        'price': ''.join(tr.xpath('./td[2]/text()')).strip(),        'unit': ''.join(tr.xpath('./td[3]/text()')).strip(),        'supermaket': ''.join(tr.xpath('./td[4]/text()')).strip(),        'time': ''.join(tr.xpath('./td[5]/text()')).strip()    }

咱们打印一下print(tr)，看下成果。

此时，你的情绪兴许是这样的：

但还没完，数据有了，咱们还得保留csv格局到本地，这一步比较简单，间接贴代码。

    with open('wood.csv', 'a', encoding='utf_8_sig', newline='') as fp:        # 'a'为追加模式（增加）        # utf_8_sig格局导出csv不乱码        fieldnames = ['name', 'price', 'unit', 'supermaket', 'time']        writer = csv.DictWriter(fp, fieldnames)        writer.writerow(tr)

关上下刚生成的wood.csv，长这样：

二爬取多页

别开心的太早，你还仅仅是爬了一页数据，人家复制粘贴都比你快。咱们的抱负可不在这，在诗和远方，哦不，是秒速爬海量数据。

那么，怎么能力爬取多页数据呢？没错，for循环。

咱们再回过头来剖析下url：

http://yz.yuzhuprice.com:8003...

咱们把外面的page.curPage改成2试试，如下：

你兴许发现玄机，只有扭转page.curPage就能够实现翻页。OK，那咱们间接在url后面加个循环就好啦。format(x)是一种格式化字符串的函数，能够承受不限个数的参数。

for x in range(1,3):    url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage={}&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'.format(x)

至此，你只有扭转range想爬多少页就爬多少页，开不开心？意不意外？

三欠缺爬虫

如果仅仅依照以上代码爬虫，很有可能爬了十几页程序就崩了。我就屡次遇到过中途报错，导致爬虫失败的状况。好不容易写出的爬虫，怎么说崩就崩呢。

报错起因就很多了，玩爬虫的都晓得，调试bug是很麻烦的，须要一直试错。这个爬虫的次要bug是TimeoutError。因而，咱们须要进一步欠缺代码。

首先，要将以上代码封装成函数，因为不必函数有以下毛病：

1、复杂度增大

2、组织构造不够清晰

3、可读性差

4、代码冗余

5、可扩展性差

其次，在可能呈现报错的中央都加上异样解决。即try......except。

欠缺之后，截取局部，如下图。限于篇幅，我就不贴所有代码了，须要残缺代码的小伙伴关注公众号，后盾回复wood即可收费获取啦。

结语

自此，红木数据爬虫代码写完啦，数据爬取下来后，就能够进行可视化的剖析了，比方能够看下每年不同市场红木的价格走势，同一市场不同红木的价格走势，或者还能够建设起红木的价格指数。可视化的内容后续我会重点解说，感兴趣的敌人能够注意下哦~

当然，此爬虫也还有很大的欠缺空间，比方退出多线程、scrapy框架爬取速度会更快。另外，引入随机的headers和代理ip，能够很好的躲避一些反爬，这些在很多绝对简单点的爬虫里是必须引入的内容。