一、bs4解析介绍

    1.bs4解析:BS4全称是Beatiful Soup,它提供一些简略的、python式的函数用来解决导航、搜寻、批改分析树等性能。它是一个工具箱,主动将输出文档转换为Unicode编码,输入文档转换为utf-8编码。
    2.HTML:用来形容网页的一种语言。
    1)HTML指的是超文本标记语言 (Hyper Text Markup Language)
    2)HTML 不是一种编程语言,而是一种标记语言 (markup language)
    3)标记语言是一套标记标签 (markup tag)
    4)HTML 应用标记标签来形容网页
    3.HTML常见标签:
    h1:一级标签
    h2:二级标签
    p:段落
    body:主体

二、应用bs4解析实战爬取柔美图库图片

    1.获取主页面源代码。
        

    2.定位标签,找到主页面源代码中子页面的链接地位。


    3.获取子页面下载链接,失去“href”。
              

    4.子页面下载地址不全,进行子页面下载理解拼接补全。,失去残缺下载链接。
        

    5.获取子页面源代码。
          
    6.从子页面获取图片下载门路。


    7.下载图片,创立文件夹img,将下载图片存入img文件夹中,取名为下载链接最初一部分(惟一)。


              

三、xpath解析介绍

    XPath即为XML门路语言(XML Path Language),它是一种用来确定XML文档中某局部地位的语言。基于XML的树状构造,提供在数据结构树中找寻节点的能力。
    1)XML 指可扩大标记语言(EXtensible Markup Language)
    2)XML 是一种标记语言,很相似 HTML
    3)XML 的设计主旨是传输数据,而非显示数据
    4)XML 标签没有被预约义。您须要自行定义标签。
    5)XML 被设计为具备自我描述性。
    1.xpath入门,筹备一个节点示例。
        
    2.从节点示例中找到book节点。
  

    3.获取节点实例中name节点下文本。
  

    4.获取author节点下所有的nick节点的文本,示例中存在author节点下的nick节点以及author节点下div中的nick节点,上面将全部内容进行输入。
              
  

    5.常见的命令
    //:当前目录中前面所有节点
    *:通配符
    @:属性
    []:示意索引
    [1]:第一条(xpath程序是从1开始计算)
    [@xx=’xxx’] :示意属性的筛选
    ./:示意以后节点,绝对查找

四、应用xpath实战爬取猪八戒网信息

    获取如图中四个信息:店铺、地位、价格、题目

    1.获取页面源代码。
  
    2.应用xpath解析,找到整体源代码地位。

    3.寻找所需信息地位进行爬取。
        


    4.对输入后果进行整顿,输入适宜格局,实现猪八戒网信息获取。