关于SegmentFault:爬虫系列-6详解爬虫中BeautifulSoup4的用法

bs4，全称BeautifulSoup 4 ，它是Python独有的一种解析形式。也就是说只有Python语言才能够通过这种形式去解析数据。

BeautifulSoup 3 只反对Python2，所以曾经被淘汰了。

官网的介绍是这样的

Beautiful Soup 提供一些简略的、python 式的函数用来解决导航、搜寻、批改分析树等性能。它是一个工具箱，通过解析文档为用户提供须要抓取的数据，因为简略，所以不须要多少代码就能够写出一个残缺的应用程序。 Beautiful Soup 主动将输出文档转换为 Unicode 编码，输入文档转换为 utf-8 编码。你不须要思考编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup 就不能自动识别编码方式了。而后，你仅仅须要阐明一下原始编码方式就能够了。 Beautiful Soup 已成为和 lxml、html6lib 一样杰出的 python 解释器，为用户灵便地提供不同的解析策略或强劲的速度。

看起来很简单，我用本人的了解，艰深的解释一下

咱们晓得一个网页的源代码，是由多个标签组成，比方<html>、<div>、<td>、<span>等等组成的，而bs4就是用来帮咱们精确定位标签地位，从而获取标签或者标签属性中内容的工具。bs4默认自带的解析器，然而官网举荐的是更弱小速度更快的 lxml解析器

其余解析器的优缺点

一、bs4的装置

pip install bs4pip install lxml

应用bs4解析时，举荐应用lxml解析器。这个在用xpath解析的时候也会用到

二、bs4解析原理

首先实例化一个BeautifulSoup对象，并且将页面源代码加载到这个对象里
调用BeautifulSoup对象中的相干属性或者办法进行标签定位和数据提取

1、如何实例化BeautifuSoup对象

a. 导入bs4包

from bs4 import BeautifulSoup

b.实例化对象

网页源代码，又分为本地曾经长久化的HTML文件和网络上间接获取的源代码。

如果是本地曾经长久化的文件，能够通过上面的形式将源代码加载到bs4对象中

fp = open('xxx.html', 'r', encoding='utf-8')# lxml:解析器soup = BeautifulSoup(fp, 'lxml')

如果是通过requests库获取的网页源代码，通过上面的形式进行加载

response = requests.get(url)html = response.textsoup = BeautifulSoup(html, 'lxml')

c.数据解析的办法和属性

bs4可能将简单的HTML转换成一个树形构造，每个节点都是Python对象。

soup.tagName(标签名): 返回的是文档中第一次呈现tagName对应的标签及其相应内容

soup.tageName1.tageName2：返回tag1中tage2的标签及其内容

soup.find：等同于soup.tagName，返回第一个匹配到的对象

soup.find_all：返回所有的匹配到的对象。

通过查看源码会发现，find的实质其实就是调用了find_all，而后返回第一个元素

参数解释：

name :要查找的标签名（字符串、正则、办法、True）
attrs: 标签的属性
recursive: 递归
text: 查找文本
**kwargs :其它键值参数

    def find(self, name=None, attrs={}, recursive=True, text=None,             **kwargs):        """Return only the first child of this Tag matching the given        criteria."""        r = None        l = self.find_all(name, attrs, recursive, text, 1, **kwargs)        if l:            r = l[0]        return r

[外链图片转存失败,源站可能有防盗链机制,倡议将图片保留下来间接上传(img-iXUox6yw-1611066850753)(C:UsersAdministratorAppDataRoamingTyporatypora-user-imagesimage-20210103164834540.png)]

上图是我从某网站截取的局部画面，翻译成HTML如下（只保留了对本次剖析有用的局部，为了不便浏览删除了地址的域名信息）

<html> <head><titel>测试Title</titel></head> <body>  <div class="test">      <ul>          <li> <a href="zhaosi.html">![](123456789.jpg)<p>尼古拉斯赵四</p></a> </li>      </ul>  </div>  <div class="nr_zt w1180">   <ul>    <li> <a id="star" href="zhengshuang.html">![](5940f2cd6b759.jpg)<p>郑爽</p></a> </li>    <li> <a id="star" href="zhuyilong.html">![](5b56e0fabf5bf.jpg)<p>朱一龙</p></a> </li>    <li> <a id="star" href="zhoudongyu.html">![](5a28b93be8155.jpg)<p>周冬雨</p></a> </li>    <li> <a id="star" href="huyitian_1.html">![](5aa36dfbe5f61.jpg)<p>胡一天</p></a> </li>    <li> <a id="star" href="yiyangqianxi.html">![](5a28d243b0382.jpg)<p>易烊千玺</p></a> </li>    <li> <a id="star" href="dilireba.html">![](5a28b69334087.jpg)<p>迪丽热巴</p></a> </li>   </ul>  </div> </body></html>

看上面几个例子

# 获取第一个li标签# <li> <a href="http://www.win4000.com/mt/zhengshuang.html">![](http://pic1.win4000.com/tj/2017-06-14/5940f2cd6b759.jpg)<p>郑爽</p></a> </li>print(soup.li)# # 获取第一个li标签中a标签# <a href="http://www.win4000.com/mt/zhengshuang.html">![](http://pic1.win4000.com/tj/2017-06-14/5940f2cd6b759.jpg)<p>郑爽</p></a>print(soup.li.a)#获取第一个li标签中a标签print(soup.find('li').a)# 获取所有li标签print(soup.find_all('li'))# 获取title标签print(soup.title)# 获取a标签的父级标签print(soup.a.parent)# 获取a标签的父级标签的名字print(soup.a.parent.name)

如何获取HTML中的href？

剖析：href是a标签中的一个属性，而a标签又在li标签中

在bs4中提取标签中的属性能够通过attrs来获取

from bs4 import BeautifulSoupfp = open('baidu.html', 'r', encoding='utf-8')soup = BeautifulSoup(fp, 'lxml')# 如果获取一个能够这样写result = soup.a.attrs['href']# zhaosi.htmlprint(result)# 获取全副,可通过先获取a标签 而后遍历获取all_result = soup.find_all('a')for i in all_result:    print(i.attrs['href'])print("* " * 40)#  如果我只想获取id = star的href，须要先对id进行筛选# 返回所有蕴含id=star的a标签star_result = soup.find_all('a', id='star')for i in star_result:    print(i.attrs['href'])# 返回蕴含id的标签（只有有id属性，并且有值的标签都返回）soup.find_all(id=True)# 假如尼古拉斯赵四 不是第一个a标签中的内容.提取对应的href# 须要先定位class=‘test’对应div的地位# 办法一：result = soup.find('div', 'test')print(result.a['href'])# 办法二（class为python中关键字，因而查找html中的class属性须要增加个下划线 class_）result1 = soup.find('div', class_='test')print(result1.a['href'])# 办法三result2 = soup.find('div', attrs={'class': 'test'})# 获取第一个a标签中的文本内容print(soup.a.text)a_result = soup.find_all('a')for i in a_result:    # 生成的是一个迭代器    print(i.strings)    print(list(i.strings))    print(i.string)    print(i.text)

其余补充

# 返回子孙节点# children返回迭代器result = soup.a.childrenfor i in result:    print(i)# 返回子孙节点， contents返回列表r = soup.a.contentsprint(r)# 能够通过正则对某个属性进行匹配# 比方返回href中以zh结尾的标签import rereg = re.compile('^zh')result = soup.find_all(href=reg)print(result)

选择器

bs4十分弱小，还反对css选择器。通过select来实现

<html> <head><titel>测试Title</titel></head> <body>  <div class="test">      <ul>          <li> <a href="zhaosi.html">![](123456789.jpg)<p>尼古拉斯赵四</p></a> </li>      </ul>  </div>  <div class="nr_zt w1180">   <ul>    <li> <a id="star" href="zhengshuang.html">![](5940f2cd6b759.jpg)<p>郑爽</p></a> </li>    <li> <a id="star" href="zhuyilong.html">![](5b56e0fabf5bf.jpg)<p>朱一龙</p></a> </li>    <li> <a id="star" href="zhoudongyu.html">![](5a28b93be8155.jpg)<p>周冬雨</p></a> </li>    <li> <a id="star" href="huyitian_1.html">![](5aa36dfbe5f61.jpg)<p>胡一天</p></a> </li>    <li> <a id="star" href="yiyangqianxi.html">![](5a28d243b0382.jpg)<p>易烊千玺</p></a> </li>    <li> <a id="star" href="dilireba.html">![](5a28b69334087.jpg)<p>迪丽热巴</p></a> </li>   </ul>  </div> </body></html>

from bs4 import BeautifulSoupfp = open('baidu.html', 'r', encoding='utf-8')soup = BeautifulSoup(fp, 'lxml')# 返回一个所有a标签的列表result = soup.select('a')# 返回第一个result1 = soup.select('a')[0]"""class选择器 ： .className"""# 一层一层的进行抉择，用 > 连贯  即 > : 示意一个层级# 输入 class = nr_zt 下ul下的li下的a标签汇合a = soup.select('.nr_zt > ul > li > a')# 多个层级关联，应用 空格。# 输入 class= 'nr_zt' 下的a标签汇合b = soup.select('.nr_zt a')"""id选择器： # idName"""result = soup.select('#star')# 通过href属性查找，返回列表soup.select('a[href="zhengshuang.html"]')# 获取对应标签中img标签的src值a = soup.select('a[href="zhengshuang.html"]')[0]print(a.img['src']) # 5940f2cd6b759.jpg

以上就是bs4的罕用操作代码，实际上在具体的爬虫过程中，匹配的形式比拟灵便，所以大家也不必能够的去背，只须要记住其原理即可。