关于python:0基础学爬虫爬虫基础之网络请求库的使用

大数据时代，各行各业对数据采集的需要日益增多，网络爬虫的使用也更为宽泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前曾经推出不少爬虫进阶、逆向相干文章，为实现从易到难全方位笼罩，特设【0根底学爬虫】专栏，帮忙小白疾速入门爬虫，本期为网络申请库的应用。

网络申请库概述

作为一名爬虫初学者，纯熟应用各种网络申请库是一项必备的技能。利用这些网络申请库，咱们能够通过非常简单的操作来进行各种协定的模仿申请。咱们不须要深刻底层去关注如何建设通信与数据如何传输，只须要调用各种网络申请库封装好的办法。Python提供了很多功能强大的网络申请库，如urllib、requests、httpx、aiohttp、websocket等，下文中会对这些库做一一介绍。

urllib

装置与介绍

装置

urllib是Python的内置申请库，不须要再额定装置。

介绍

urllib库蕴含四个模块：

urllib.request： 向指标url发动申请并读取响应信息。

urllib.error： 负责异样解决，捕捉urllib.request抛出的异样。

urllib.parse： 解析url，提供了一些url的解析办法。

urllib.robotparser： 解析网站robots.txt文件，判断网站是否容许爬虫程序进行采集。

应用办法

申请与响应

应用到了urllib.request模块中的urlopen办法来关上一个url并获取响应信息。urlopen默认返回的是一个HTTPResponse对象，能够通过read办法失去它的明文信息。

import urllib.requestresponse = urllib.request.urlopen('http://httpbin.org/get')print(response)  #打印：<http.client.HTTPResponse object at 0x0000013D85AE6548>print(response.read().decode('utf-8'))  #响应信息print(response.status)                  #返回状态码print(response.getheaders())            #返回响应头信息

设置申请头与参数

当申请须要设置申请头时，就须要用到urllib.request模块中的另一个办法Request，它容许传递如下几个参数：

def __init__(self, url, data=None, headers={},origin_req_host=None, unverifiable=False,method=None)

url：指标url
data：申请参数，默认为None
headers：申请头信息，字典类型
origin_req_host：申请的主机地址
unverifiable：设置网页是否须要验证
method：申请形式

from urllib import request,parseurl = 'https://httpbin.org/post'  #指标URLheaders = {    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}                           #申请头信息params = {    'test':'test01'         #申请参数}data = bytes(parse.urlencode(params),encoding='utf-8')  #解析为bytes类型res = request.Request(url,data=data,headers=headers,method='POST')  #实例化Requestresponse = request.urlopen(res)         #发动申请print(response.read().decode('utf-8'))  #响应信息

异样捕捉

在发动申请时，可能会因为网络、url谬误、参数谬误等问题导致申请异样，程序报错。为了应答这种状况，咱们须要增加异样解决性能。

from urllib import request,errortry:    response = request.urlopen('http://httpbin.org/get')except error.HTTPError as e:    #捕捉异样    print(e)  #打印异样信息

requests

requests是Python爬虫开发中最常应用到的库，它提供了简略易用的API，使得在Python中发送HTTP申请变得非常容易，它比urllib模块更加简洁，应用更加不便。

装置与介绍

装置

requests是Python的第三方库，应用 pip install requests 进行装置

介绍

requests蕴含了许多模块，这里只介绍次要模块：

requests： 主模块，提供了HTTP申请办法。

requests.session： 会话模块，提供了Session类，用于多个申请中共享申请信息。

requests.adapters： 适配器模块，提供了不同协定的适配器类，用于解决不同协定的申请。

requests.cookie： Cookie模块，用于解决cookie信息。

requests.exceptions： 异样解决模块，用于解决申请中会呈现的各种异样。

requests.status_codes： 状态码模块，提供了HTTP状态码常量和状态码解释。

应用办法

申请与响应

import requests   #导入requests模块get_response = requests.get('http://httpbin.org/get')   #发送get申请post_response = requests.post('http://httpbin.org/post')   #发送post申请print(get_response)   #<Response [200]>print(post_response)   #<Response [200]>

requests库发送申请非常简单，并反对多种申请形式，如：get、post、put、delete等。发动申请后requests会返回一个Response对象，能够应用多种办法来解析Response对象。

import requestsresponse = requests.get('http://httpbin.org/get')print(response.status_code)   #返回响应状态码print(response.encoding)   #返回响应信息的编码print(response.text)   #返回响应的文本信息print(response.content)   #返回响应的字节信息print(response.json())   #将JSON响应信息解析为字典，如果响应数据类型不为JSON则会报错print(response.headers)   #返回响应头信息print(response.cookies)   #返回响应cookie

设置申请头与参数

request(self,method,url,params=None,data=None,headers=None,cookies=None,files=None,auth=None,timeout=None,allow_redirects=True,proxies=None,hooks=None,stream=None,verify=None,cert=None,json=None)

requests中设置申请头能够通过headers参数来设置，headers是一个字典类型，键为申请头的字段名，值为对应申请头的值。

申请参数能够通过params办法进行设置，类型为字典。键为参数名，值为对应参数的值。

在网络申请中，携带的参数能够分为两个类型，它们在python中对应的字段名如下：

查问字符串参数： params

申请载荷： data/json

查问字符串参数params是拼接在url中的参数，罕用于get申请，作为查问参数应用。而data与json个别应用与post申请中，它是要发送到服务器的理论数据。

import requestsheaders = {    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}params = {'key':'value'}data = {'username':'user','passowrd':'password'}get_response = requests.get(url,params=params,headers=headers)post_response = requests.post(url,data=data,headers=headers)

Session的应用

当一个网站咱们须要屡次申请时，如我须要登录 -> 申请集体页面，在面对这种场景时，咱们能够应用到Session办法。因为通过requests发送到的申请是独立，咱们申请登录接口与申请集体页面之间是没有分割的，咱们须要申请登录接口后获取它返回的cookie，而后设置cookie进行下一次申请。每次申请后都须要设置一次cookie，如果申请流程更多的话那么过程就会显得很繁琐。应用Session办法就能更好的模仿一次申请流程，不须要频繁的设置cookie。

Session的作用相似于浏览器中的cookie与缓存，它能够用于在屡次申请中保护一些状态信息，防止反复发送雷同的信息和数据，应用Session能够优化HTTP申请的性能与可维护性，它的应用也非常简单。

import requestssession = requests.Session()       #创立session对象session.get('http://httpbin.org/cookies/set/username/test')   #发动申请，模仿一次登录response = session.get('http://httpbin.org/cookies')   #获取cookieprint(response.text)   #{"cookies": {"username": "test"}}

异样捕捉

requests.exceptions 中提供了一系列申请异样。

ConnectTimeout：连贯超时
ReadTimeout：服务器在指定工夫内没有应答
ConnectionError：未知的服务器
ProxyError：代理异样
URLRequired：有效URL
TooManyRedirects：重定向过多
MissingSchema：URL缺失，如短少：http/https
InvalidSchema：提供的URL计划有效或不受反对
InvalidURL：提供的URL不知何故有效
InvalidHeader：提供的申请头有效
InvalidProxyURL：提供的代理URL有效
ChunkedEncodingError：服务器申明了编码分块，但发送了有效分块
ContentDecodingError：无奈对响应信息解码
StreamConsumedError：此响应内容已被应用
RetryError：自定义重试逻辑谬误
UnrewindableBodyError：申请在尝试倒带注释时遇到谬误
HTTPError：呈现HTTP谬误
SSLError：产生SSL谬误
Timeout：申请超时

httpx

后面讲到了requests库，它功能强大、应用简略，并且提供session会话模块，仿佛requests库曾经能够满足所有的利用场景了。然而requests也有一些致命的毛病：

同步申请，不反对异步，requests默认应用同步申请，在网络申请中同步申请到导致性能问题。
不反对HTTP2.0，现在曾经有少部分网站采纳HTTP2.0协定来进行数据传输，面对这类网站无奈应用requests。

而httpx是一个基于异步IO的Python3的全功能HTTP客户端库，旨在提供一个疾速、简略、现代化的HTTP客户端，它提供同步与异步API，而且反对HTTP1.1和HTTP2.0。并且httpx性能也很齐全，requests反对的性能httpx也根本同样反对。因而，在爬虫开发中应用httpx也是一个十分不错的抉择。

装置与介绍

装置

httpx是Python的第三方库，应用 pip install httpx 进行装置

如果须要httpx反对https2.0，则须要装置它的可选依赖项， pip install httpx[http2]

介绍

httpx是建设在requests的成熟可用性之上的，提供的模块与requests大同小异，因而不做介绍。

应用办法

httpx用法与requests基本一致，这里次要介绍httpx的Client实例。

httpx Client

Client作用与requests的session办法统一，但用法有些区别。

常见用法是应用上下文管理器，这样能够确保在申请实现后可能正确清理连贯。

import httpxwith httpx.Client() as client:    response = client.get('https://httpbin.org/get')    print(response)   #<Response [200 OK]>

在设置申请头、传递参数时也有新的写法。

import httpxheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}params = {'key':'value'}with httpx.Client(headers=headers,params=params) as client:    response = client.get('https://httpbin.org/get')    print(response)

aiohttp

aiohttp是基于Python异步IO的HTTP客户端/服务器库，它与httpx类似，同样反对HTTP1.1和HTTP2.0协定，aiohttp是基于asyncio实现的，它反对WebSocket协定。

装置

aiohttp是Python的第三方库，应用 pip install aiohttp 进行装置

应用

import aiohttpimport asyncioasync def main():    async with aiohttp.ClientSession() as session:        async with session.get('https://httpbin.org/get') as response:            print(response) #<ClientResponse(https://httpbin.org/get) [200 OK]>loop = asyncio.get_event_loop()loop.run_until_complete(main())

aiohttp不反对同步，须要与asyncio一起应用，与前文中讲到的库比照，aiohttp显得异样简单，requests两行代码就能实现的性能aiohttp却须要5行。为什么aiohttp代码如此冗余咱们却要应用它呢？因为aiohttp是异步的，它的api旨在充分利用非阻塞网络操作，在实例代码中，申请将阻塞三次，这为事件循环提供了三次切换上下文的机会。aiohttp能够实现单线程并发IO操作，它在解决大量网站申请时的速度远超于requests，但在波及到文件读写操作时，它施展的作用就没有预期的那么大，因而aiohttp库的应用须要爬虫开发者自行斟酌。

websocket

Python websocket库是专门用于创立WebSocket服务的库。WebSocket是一种在客户端与服务端之间进行双向通信的协定，服务端能够向客户端推送数据，客户端也能够向服务端推送数据，这样就能实现数据的及时通信，它与HTTP协定一样，由socket实现。WebSocket通常应用在直播、弹幕等场景中。

装置

websocket是Python的内置库，不须要手动装置。当你在运行下文中的实例时，如果报错cannot import name 'WebSocketApp' from 'websocket'，你能够卸载现有的websocket库，装置websocket-client==0.53.0版本的包。

应用

websocket用于客户端与服务端通信，爬虫开发中个别只会进行客户端的开发，所有这里只介绍客户端的开发。

应用WebSocketApp能够疾速的建设一个Websocket连贯。

from websocket import WebSocketAppdef on_message(ws, message):  #接管到音讯时执行    print(message)def on_error(ws, error):  #异样时执行    print(error)def on_close(ws):   #敞开连贯时执行    print("WebSocket closed")def on_open(ws):  #开启连贯时执行    ws.send("Hello, WebSocket!")  #发送信息    if __name__ == "__main__":    ws = WebSocketApp("ws://echo.websocket.org/",                                on_message=on_message,                                on_error=on_error,                                on_close=on_close)    ws.on_open = on_open    ws.run_forever()

能够看到websocket提供了四个模块：

on_message： 接管服务器推送来的数据

on_error： 连贯异样时会触发on_error

on_close： 连贯敞开时触发on_close

on_open： 连贯开启时触发on_open

演绎

上文中讲到了urllib、requests、httpx、aiohttp、websocket这五个库的应用，这五个库根本可能满足爬虫开发中的申请需要。urllib是python的内置库，应用起来较为繁琐，能够只做理解。requests是爬虫开发中最常应用的库，功能齐全，应用简略，须要认真学习。httpx在requests的根底上反对异步解决、HTTP2.0与Websocket协定，requests的性能httpx都反对，但在性能方面httpx弱于其余申请库，httpx也须要爬虫初学者好好学习。aiohttp用于编写异步爬虫，开发效率低于其它库，然而执行效率远高与其它库，也是一个须要好好把握的申请库。websocket是专门用于Websocket协定的库，应用也较为简单，能够在须要时再做理解。