关于python:python爬虫requestsBeautifulSoup

requests模块介绍

绝对于python自带的urllib模块,requests模块提供了绝对更高层的api来进行网页拜访的工作。

对于requests模块,应用很简略,个别咱们会用到两个函数:

  • requests.get(url,params=None,**kwargs) 这里的params是咱们要传入的query,它的格局是dict。
  • requests.post(url,data=None,**kwargs) 这里的data就是咱们要提交的表单data,也是间接传入dict就好。

以上两个函数别离对应http协定中的”GET”办法与”POST”办法,而除了这两者,还有如”PUT”、”DELETE”、”HEAD”等办法,在requests模块中有一个对立的函数来发动不同“办法”的http申请报文:

  • requests.request(method,url,**kwargs) 能够看到该函数的第一个参数method的取值就是”GET”、”POST”等。
  • 该办法与上文提到的两个办法,返回值都是requests.Response对象,前面咱们会对该对象与requests.Request对象进行介绍
  • 较罕用的关键字参数:params,data,headers,proxies,stream等。
  • 其实上文所介绍的两个函数get和post,或是对应其余办法的函数,它们的实现就是应用request.requests函数的:
    def get(url, params=None, **kwargs):
         kwargs.setdefault('allow_redirects', True)
         #这里可见request.get的本质
         return request('get', url, params=params, **kwargs)

这里来具体介绍一下headers,proxies和stream关键字参数的用处:

  • headers参数就是http申请报文的头部,它的格局是一个dict,其中最为罕用的headers元素就是User-Agent,模拟浏览器拜访网页。
  • proxies参数就是代理,它的格局也是一个dict,每一个键值对是这样的模式:”协定”:”ip:port”。
  • stream参数是绝对前两者较生疏的一个参数,该参数默认为False,意味着咱们会一下子把网页内容都下载,但如果被动设置为True的话,则不会立即下载网页内容,而是等到应用requests.Response的iter_content才会迭代地把数据下载并读进内存中。

requests.Request&requests.Response

这两个对象具体对爬虫有过理解的敌人们都很相熟了,它们是在爬虫逻辑中很要害的两个对象,简略来说:收回Request,返回Response

requests.Request

咱们在应用requests时个别不会间接创立Request对象,所以这里咱们大抵理解一下即可:

requests.Request(method=None, url=None, headers=None, data=None, params=None) 咱们列出Request类结构时所需的一些罕用参数,并且前文咱们提到requests.get等函数的本质是requests.request函数,那么其实钻研该函数的源码:

def request(method, url, **kwargs):
    with sessions.Session() as session:
        #能够看到在request函数内调用了session.request办法
        return session.request(method=method, url=url, **kwargs)
        

#这个是session.request办法的定义
def request(self, method, url,
        params=None, data=None, headers=None, cookies=None, files=None,
        auth=None, timeout=None, allow_redirects=True, proxies=None,
        hooks=None, stream=None, verify=None, cert=None, json=None):
    
    #能够看到这里其实应用传入参数
    #创立了一个requests.Request实例
    req = Request(
        method=method.upper(),
        url=url,
        headers=headers,
        files=files,
        data=data or {},
        json=json,
        params=params or {},
        auth=auth,
        cookies=cookies,
        hooks=hooks,
    )
    #进一步解决,失去对应的PreparedRequest对象
    prep = self.prepare_request(req)

    proxies = proxies or {}

    settings = self.merge_environment_settings(
        prep.url, proxies, stream, verify, cert
    )

    # Send the request.
    send_kwargs = {
        'timeout': timeout,
        'allow_redirects': allow_redirects,
    }
    send_kwargs.update(settings)
    #这里是真正的send Request,并返回一个Response对象
    resp = self.send(prep, **send_kwargs)
    return resp

由以上代码可知,其实requests.request办法的本质就是创立一个Request实例,在对其进行肯定预处理后将其send,而后失去Response。

requests.Response

咱们之前的requests.get、requests.post或是requests.request函数的返回对象就是一个requests.Response实例。对于Response类,咱们次要介绍几个罕用属性与办法:

  • Response.content 以bytes的模式失去返回Response的内容,其实也就是未解码的html文件
  • Response.text 文本模式的Response内容,也就是解码了的html文件,且如Response.encoding属性为None的话,那么会以chardet去猜想bytes内容的编码方式。当然咱们也能够在access这个属性前人为指定一种编码方式。
  • Response.encoding 指定以何种形式来解码,Response内容的编码齐全基于HTTP报头,遵循RFC2616文件。
  • Response.url 即Response的url
  • Response.status_code 相应的状态码,如胜利的话该值就是200
  • Response.request 失去对应于这个Response的Request对象,其实是(PreparedRequest),通过这个request对象咱们能够失去过后拜访时的url、method、headers等属性。
  • Response.iter_content(chunk_size=1),该函数返回一个generator,其中的chunk_size决定咱们每次下载并读进内存中多少个字节,个别应用办法为for item in Response.iter_content(256)这样的for循环遍历即可。

BeautifulSoup

BeautifulSoup是一个能够从HTML或XML文件中提取数据的Python库,通常咱们应用requests失去html文件(Response.text),而后咱们再应用BeautifulSoup来解决。从而提取到咱们须要的信息。

如何应用BeautifulSoup

from bs4 import BeautifulSoup
#其中html是返回的网页文本,也就是response.text
#而lxml是BeautifulSoup应用的文档解析器,须要咱们
#曾经事后pip install好lxml这个模块,或者咱们也可
#应用python自带的html.parser,不过它的速度较慢些
#而soup就是一个BeautifulSoup对象,它承载了一个
#由html文档外部各个元素所造成的树形构造。
soup=BeautifulSoup(html,"lxml")
#以下就是几个最简略根本的应用
#间接以属性援用的形式失去html文档中的第一个a标签
print(soup.a)
#进一步失去html文档中第一个a标签的中的字符串局部(如果存在的话)
print(soup.a.string)
#拿到html文档中第一个a标签的href属性的值
print(soup.a["href"])

以上大抵介绍了BeautifulSoup的简略实用,接下来咱们进行更具体地剖析:
BeautifulSoup将HTML文档转换成一个简单的树形构造,该树形构造中的每个节点都是Python对象,所有对象可分为4种: Tag、NavigableString、BeautifulSoup、Comment。

  • Tag对象 对应的就是html文档中的标签,它有很多属性与办法,这里先介绍它最重要的两个属性:1.tag.name返回的就是该tag标签的名字(比方tag对应a标签,那么tag.name返回的就是”a”)。2.tag.attrs以字典的模式返回该标签所有的属性,如{“herf”:”www.baidu.com”}。而咱们想拿到属性值就能够用tag.attrs[“href”],不过上文也看到了,这里其实能够间接简写为tag[“href”]。
  • NavigableString对象 它其实就是咱们应用soup.a.string时真正返回的对象,它是对python自带的string对象进行了一个包装,咱们能够就把它当作string应用,不须要在意其它。
  • BeautifulSoup对象 它对应咱们文档的全部内容,也就是上文的soup对象,大部分工夫咱们能够把它当作tag对象一样来应用办法,不过它没有attrs属性,并且它的name属性的值只为:[“document”]。
  • Comment对象 它对应html文档中的正文标签:<!– 此处写正文 –>,该标签很特地的是它不会被浏览器显示,只是一个对程序员正文的作用。该对象在理论利用中很少应用,这里不作更进一步的介绍。

接下来咱们要来对tag对象以及BeautifulSoup对象在应用method上进行更进一步的介绍:

而所谓的method应用,咱们着眼的就是在失去的BeautifulSoup对象的树形构造中对所须要的信息进行搜寻的工作。

这样的搜寻工作依据对节点自身信息节点之间在树形构造中的关系的利用不同而分为两种

第一种,由节点自身信息对节点进行搜寻

所谓tag.a其实就是tag.find("a"),该办法的具体函数头如下
find(name,attrs,recursive,string,**kwargs)
name就是标签名,它的值是一个“过滤器”。
attrs就是该name对应标签的属性,同样值也是一个“过滤器”。
recursive是一个bool值,默认为True。它的意思是搜寻以后tag的所有子孙节点,如果为False,则只搜寻以后tag的间接子节点
string就是该name对应的string值,也是一个“过滤器”。
**kwargs个别应用不必理睬。

当然下面的tag.a或是tag.find("a")都只能失去tag下的第一个a标签,
这太局限了,如果咱们想要的是前面的第三个a标签呢?于是就有了
tag.find_all("a")办法,返回一个列表,来失去所有的a标签,简写为tag("a")。
find_all(name,attrs,recursive,string,**kwargs)
参数的意义和find函数一样

上面咱们来解说一下这个所谓的“过滤器”到底是什么货色
具体的代码实现有点繁琐,总之咱们能够把它了解为一种
对象,咱们容许这个对象有多种值。
(1)字符串值 最简略的就是传入字符串值,如之前的tag.a
(2)正则表达式值 即re.compile(r"\d+")这样的模式
(3)列表值 如name=["a","div"],则find只会返回其中的后者,
find_all会返回一个列表,蕴含tag下的所有a和div标签。
(4)True 意思不做过滤,对于find是返回tag下符合要求的标签的第一个,对于find_all是返回所有。比方name=True,那么就不对name
过滤,对其余attrs或string持续筛选过滤。

第二种,依据节点所在树形构造中的关系对其它节点进行搜寻

间接子节点:
tag.childern和tag.contents是tag对象的两个属性,留神不是对应标签的属性!!!它们返回以后tag节点在树形构造中的间接子节点。
tag.childern返回一个生成器
tag.contents返回一个列表

子孙节点:
tag.descendants返回一个生成器,对它进行遍历能够失去以后tag节点的所有子孙节点的循环遍历后果。

间接父节点:
tag.parent获取以后tag的间接父节点

所以父节点:
tag.parents返回一个生成器,能够获取以后tag的所有父辈节点

next的兄弟节点:
tag.next_sibling和tag.next_siblings,返回值类型不必赘述。

previous的兄弟节点:
tag.previous_sibling和tag.previous_siblings,同样返回类型不必赘述。

以上大略就是BeautifulSoup在搜寻信息时所需的常识,其它如两种形式联合的tag.find_parent(name,attrs,recursive,string,**kwargs)等办法,之后能够缓缓理解。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理