关于爬虫:Python爬虫教程五

38次阅读

共计 932 个字符,预计需要花费 3 分钟才能阅读完成。

一、综合训练 - 爬取 91 看剧视频

    1. 找到想要爬取的视频地位

    关上哲仁王后第一集视频,关上页面源代码,可看到视频 m3u8 链接。

    应用开发者工具能够看到其 m3u8 文件内容

    2. 获取视频页面源代码。
    

    3. 应用 re 解析从页面源代码中提取 m3u8 链接。

    4. 下载 m3u8 文件
     

    5. 解析 m3u8 文件。
  
                

二、selenium 概念介绍

    Selenium 是一个用于 Web 应用程序测试的工具。Selenium 测试间接运行在浏览器中,就像真正的用户在操作一样。
    咱们要应用 Selenium 进行一些网页中的操作,还须要下载浏览器驱动。Chrome 驱动下载地址 http://npm.taobao.org/mirrors…。抉择与以后应用的 Chrome 版本雷同版本,若没有雷同的版本号,则抉择最靠近的上一版本。将下载的驱动解压后保留在 python 解释器所在的文件夹中。
    测试驱动是否可用,应用 selenium 启动浏览器。
       

三、Selenium 的操作及爬取拉钩信息。

    1. 关上拉勾网。
          

    2. 找到某个元素点击,这里以全国为例,复制其 xpath 地址。

    3. 找到输入框,输出 python,回车进行搜寻,须要导入 Keys。
      

    4. 查找所要数据的地位,进行提取。
(1)找到所有存放数据的 <li>。

(2)找到每条想要元素地位取得其 xpath。


(3)进行数据提取。

    5.窗口间切换,获取新窗口中内容。

    敞开子页面,回到主页面视角。
          

    6. 解决下拉菜单,实战爬取艺恩数据的年度票房信息。

       

    7. 应用超级鹰解决超级鹰登录验证码

(1)实现注册登录,在用户核心查看软件 ID,新注册账号需本人生成一个软件 ID

(2)下载示例代码,在开发文档中抉择对应语言,我这里选 python。

        

(3)将代码及示例图片复制到所建我的项目中进行测试。
                      

(4)应用超级鹰解决超级鹰登录验证码。


正文完
 0