关于网页爬虫:爬虫基本功就这么点

文章分三个个局部

两个爬虫库requests和selenium如何应用
html解析库BeautifulSoup如何应用
动静加载的网页数据用requests怎么抓

两个爬虫库

requests

假如windows下装置好了python和pip。
上面用pip装置爬虫库requests

如果提醒pip版本低，不倡议降级，降级后可能python自身版本低，导致pip指令报错。

进入Python命令行验证requests库是否可能应用

看到import requests和requests.get函数都没有报错，阐明装置胜利能够开发咱们的第一个爬虫程序了！
将代码文件命名为test.py，用IDEL关上。

最简略的爬虫就这么几行！

引入requests库，
用get函数拜访对应地址，
断定是否抓取胜利的状态，r.text打印出抓取的数据。

而后菜单栏点击Run->Run Module 会弹出Python的命令行窗口，并且返回后果。咱们拜访的是腾讯公布新冠肺炎疫情的地址

如果没有IDEL，间接cmd命令行运行依照上面执行

selenium

selenium库会启动浏览器，用浏览器拜访地址获取数据。上面咱们演示用selenium抓取网页，并解析爬取的html数据中的信息。先装置selenium

接下来装置解析html须要的bs4和lxml。
装置bs4

装置lxml

要确保windows环境变量path的目录下有chromedriver

我d盘的instantclient_12_2曾经加到path里了。所以chromedriver解压到这个目录。chromedriver不同的版本对应Chrome浏览器的不同版本，开始我下载的chromedriver对应Chrome浏览器的版本是71-75（图中最上面的），我的浏览器版本是80所以从新下载了一个才好使。
代码如下

Python执行过程中会弹出

浏览器也主动启动，拜访指标地址

IDEL打印后果如下

HTML解析库BeautifulSoup

selenium例子中爬取数据后应用BeautifulSoup库对html进行解析，提取了感兴趣的局部。如果不解析，抓取的就是一整个html数据，有时也是xml数据，xml数据对标签的解析和html是一样的情理，两者都是<tag>来辨别数据的。这种格局的数据结构一个页面一个样子，解析起来很麻烦。BeautifulSoup提供了弱小的解析性能，能够帮忙咱们省去不少麻烦。
应用之前装置BeautifulSoup和lxml。
首先代码要引入这个库（参考下面selenium库代码）

from bs4 import BeautifulSoup

而后，抓取

r = request.get(url)      
r.encoding='utf8'  
html=r.read() #urlopen获取的内容都在html中  
mysoup=BeautifulSoup(html, 'lxml') #html的信息都在mysoup中了

假如咱们对html中的如下局部数据感兴趣

<data>  
        <day>20200214</day>  
        <id>1</id>  
        <rank>11</rank>  
        <name>张三</name>  
    </data>  
    <data>  
        <day>20200214</day>  
        <id>4</id>  
        <rank>17</rank>  
        <name>李斯</name>  
    </data>

首先要找到tag标签为<data>的数据，而这类数据不止一条，咱们以两条为例。那么须要用到beautifulsoup的find_all函数，返回的后果应该是两个<data>数据。当解决每一个<data>数据时，外面的<id><name>等标签都是惟一的，这时应用find函数。

mysoup=BeautifulSoup(html, 'lxml')    
data_list=mysoup.find_all('data')  
for data in data_list:#list应该有两个元素  
    day = data.find('day').get_text() #get_text是获取字符串，能够用.string代替  
    id = data.find('id').get_text()  
    rank = data.find('rank').get_text()  
    name = data.find('name').get_text()  
    #print name  能够print测试解析后果

这是beautifulsoup最简略的用法，find和find_all不仅能够依照标签的名字定位元素，还能够依照class，style等各种属性，以及文本内容text作为条件来查找你感兴趣的内容，十分弱小。

requests库如何抓取网页的动静加载数据

还是以新冠肺炎的疫情统计网页为例。本文结尾requests例子最初打印的后果外面只有题目、栏目名称之类的，没有累计确诊、累计死亡等等的数据。因为这个页面的数据是动静加载下来的，不是动态的html页面。须要依照我下面写的步骤来获取数据，要害是取得URL和对应参数formdata。上面以火狐浏览器讲讲如何取得这两个数据。
肺炎页面右键，呈现的菜单抉择查看元素。

点击上图红色箭头网络选项，而后刷新页面。如下，

这里会呈现很多网络传输记录，察看最右侧红框“大小”那列，这列示意这个http申请传输的数据量大小，动静加载的数据个别数据量会比其它页面元素的传输大，119kb相比其它按字节计算的算是很大的数据了，当然网页的装璜图片有的也很大，这个须要依照文件类型那列来甄别。

url带参数

而后点击域名列对应那行，如下

能够在音讯头中看见申请网址，url的尾部问号前面曾经把参数写上了。
途中url解释，name是disease_h5，callback是页面回调函数，咱们不须要有回调动作，所以设置为空，_对应的是工夫戳（Python很容易取得工夫戳的），因为查问肺炎患者数量和工夫是严密相干的。
咱们如果应用带参数的URL，那么就用

url='网址/g2/getOnsInfo?name=disease_h5&callback=&_=%d'%int(stamp*1000)     
requests.get(url)

url和参数拆散

点击参数能够看见url对应的参数

如果应用参数和url拆散的模式那么
那么就这样

url="网址/g2/getOnsInfo"  

formdata = {'name': 'disease_h5',   
'callback': '',   
'_': 以后工夫戳    
}    

requests.get(url, formdata)

找url和参数须要急躁剖析，能力正确甄别url和参数的含意，进行正确的编程实现。参数是否能够空，是否能够硬编码写死，是否有特殊要求，比拟依赖教训。

总结

学完本文，浏览爬虫代码就很容易了，所有代码都是为了胜利get到url做的筹备以及抓到数据之后的解析而已。
有的url很简略，返回一个.dat文件，外面间接就是json格局的数据。有的须要设置大量参数，能力取得，而且取得的是html格局的，须要解析能力提取数据。
爬到的数据能够存入数据库，写入文件，也能够现抓现展现不存储。

关于网页爬虫:爬虫基本功就这么点

两个爬虫库

requests

selenium

HTML解析库BeautifulSoup

requests库如何抓取网页的动静加载数据

url带参数

url和参数拆散

总结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于网页爬虫:爬虫基本功就这么点

两个爬虫库

requests

selenium

HTML解析库BeautifulSoup

requests库如何抓取网页的动静加载数据

url带参数

url和参数拆散

总结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复