关于python:Python爬虫教程二

45次阅读

共计 1299 个字符,预计需要花费 4 分钟才能阅读完成。

一、bs4 解析介绍

    1.bs4 解析:BS4 全称是 Beatiful Soup,它提供一些简略的、python 式的函数用来解决导航、搜寻、批改分析树等性能。它是一个工具箱,主动将输出文档转换为 Unicode 编码,输入文档转换为 utf- 8 编码。
    2.HTML:用来形容网页的一种语言。
    1)HTML 指的是超文本标记语言 (Hyper Text Markup Language)
    2)HTML 不是一种编程语言,而是一种标记语言 (markup language)
    3)标记语言是一套标记标签 (markup tag)
    4)HTML 应用标记标签来形容网页
    3.HTML 常见标签:
    h1:一级标签
    h2:二级标签
    p:段落
    body:主体

二、应用 bs4 解析实战爬取柔美图库图片

    1. 获取主页面源代码。
        

    2.定位标签,找到主页面源代码中子页面的链接地位。


    3. 获取子页面下载链接,失去“href”。
              

    4.子页面下载地址不全,进行子页面下载理解拼接补全。,失去残缺下载链接。
        

    5. 获取子页面源代码。
          
    6. 从子页面获取图片下载门路。


    7. 下载图片,创立文件夹 img,将下载图片存入 img 文件夹中,取名为下载链接最初一部分(惟一)。


              

三、xpath 解析介绍

    XPath 即为 XML 门路语言(XML Path Language),它是一种用来确定 XML 文档中某局部地位的语言。基于 XML 的树状构造,提供在数据结构树中找寻节点的能力。
    1)XML 指可扩大标记语言(EXtensible Markup Language)
    2)XML 是一种标记语言,很相似 HTML
    3)XML 的设计主旨是传输数据,而非显示数据
    4)XML 标签没有被预约义。您须要自行定义标签。
    5)XML 被设计为具备自我描述性。
    1.xpath 入门,筹备一个节点示例。
        
    2. 从节点示例中找到 book 节点。
  

    3. 获取节点实例中 name 节点下文本。
  

    4. 获取 author 节点下所有的 nick 节点的文本,示例中存在 author 节点下的 nick 节点以及 author 节点下 div 中的 nick 节点,上面将全部内容进行输入。
              
  

    5. 常见的命令
    //:当前目录中前面所有节点
    *:通配符
    @:属性
    []:示意索引
    [1]:第一条(xpath 程序是从 1 开始计算)
    [@xx=’xxx’]:示意属性的筛选
    ./:示意以后节点,绝对查找

四、应用 xpath 实战爬取猪八戒网信息

    获取如图中四个信息:店铺、地位、价格、题目

    1. 获取页面源代码。
  
    2. 应用 xpath 解析,找到整体源代码地位。

    3. 寻找所需信息地位进行爬取。
        


    4. 对输入后果进行整顿,输入适宜格局,实现猪八戒网信息获取。

正文完
 0