关于python:Python爬虫教程二

一、bs4解析介绍

1．bs4解析：BS4全称是Beatiful Soup，它提供一些简略的、python式的函数用来解决导航、搜寻、批改分析树等性能。它是一个工具箱，主动将输出文档转换为Unicode编码，输入文档转换为utf-8编码。
2．HTML：用来形容网页的一种语言。
1）HTML指的是超文本标记语言 (Hyper Text Markup Language)
2）HTML 不是一种编程语言，而是一种标记语言 (markup language)
3）标记语言是一套标记标签 (markup tag)
4）HTML 应用标记标签来形容网页
3.HTML常见标签：
h1：一级标签
h2：二级标签
p：段落
body：主体

二、应用bs4解析实战爬取柔美图库图片

1.获取主页面源代码。

2．定位标签，找到主页面源代码中子页面的链接地位。

3.获取子页面下载链接，失去“href”。

4．子页面下载地址不全，进行子页面下载理解拼接补全。，失去残缺下载链接。

5.获取子页面源代码。

6.从子页面获取图片下载门路。

7.下载图片，创立文件夹img，将下载图片存入img文件夹中，取名为下载链接最初一部分（惟一）。

三、xpath解析介绍

XPath即为XML门路语言（XML Path Language），它是一种用来确定XML文档中某局部地位的语言。基于XML的树状构造，提供在数据结构树中找寻节点的能力。
1）XML 指可扩大标记语言（EXtensible Markup Language）
2）XML 是一种标记语言，很相似 HTML
3）XML 的设计主旨是传输数据，而非显示数据
4）XML 标签没有被预约义。您须要自行定义标签。
5）XML 被设计为具备自我描述性。
1.xpath入门，筹备一个节点示例。

2.从节点示例中找到book节点。

3.获取节点实例中name节点下文本。

4.获取author节点下所有的nick节点的文本，示例中存在author节点下的nick节点以及author节点下div中的nick节点，上面将全部内容进行输入。

5.常见的命令
//：当前目录中前面所有节点
*：通配符
@：属性
[]：示意索引
[1]：第一条（xpath程序是从1开始计算）
[@xx=’xxx’] ：示意属性的筛选
./：示意以后节点，绝对查找

四、应用xpath实战爬取猪八戒网信息

获取如图中四个信息：店铺、地位、价格、题目

1.获取页面源代码。

2.应用xpath解析，找到整体源代码地位。

3.寻找所需信息地位进行爬取。

4.对输入后果进行整顿，输入适宜格局，实现猪八戒网信息获取。